CN110209810B - 相似文本识别方法以及装置 - Google Patents
相似文本识别方法以及装置 Download PDFInfo
- Publication number
- CN110209810B CN110209810B CN201811050014.9A CN201811050014A CN110209810B CN 110209810 B CN110209810 B CN 110209810B CN 201811050014 A CN201811050014 A CN 201811050014A CN 110209810 B CN110209810 B CN 110209810B
- Authority
- CN
- China
- Prior art keywords
- text
- similarity
- short
- texts
- pairs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 92
- 238000010801 machine learning Methods 0.000 claims abstract description 152
- 238000012549 training Methods 0.000 claims abstract description 87
- 238000012545 processing Methods 0.000 claims abstract description 35
- 238000012216 screening Methods 0.000 claims abstract description 20
- 239000013598 vector Substances 0.000 claims description 181
- 230000011218 segmentation Effects 0.000 claims description 132
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 abstract description 18
- 238000005516 engineering process Methods 0.000 abstract description 10
- 230000006870 function Effects 0.000 description 69
- 238000004364 calculation method Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 9
- 230000004083 survival effect Effects 0.000 description 8
- 101100026202 Neosartorya fumigata (strain ATCC MYA-4609 / Af293 / CBS 101355 / FGSC A1100) neg1 gene Proteins 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000007726 management method Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 5
- 239000010931 gold Substances 0.000 description 5
- 229910052737 gold Inorganic materials 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 239000002699 waste material Substances 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002688 persistence Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000035943 smell Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种相似文本识别方法以及装置;本发明实施例将需要进行相似标题识别处理的文章标题组合为标题文本集,然后两两组合得到文本对,使用无监督机器学习模型得到第一相似度值,使用训练后有监督机器学习模型得到第二相似度值,最后根据第一相似度值和第二相似度值,识别文本对中的相似文本对;在该过程中,采用无监督机器学习模型与有监督机器学习模型融合的框架来识别相似文本,识别率更高,解决了现有相似文本筛选技术存在的针对新闻标题等短文本中相似文本识别率低的技术问题。
Description
技术领域
本发明涉及推荐领域,具体涉及一种相似文本识别方法以及装置。
背景技术
基于文本相似度,进行新闻、广告等文本推送是推送系统的核心,推送系统在用户点击某个新闻之后,根据用户需求进行相似文本或者不相似文本的推送,以提高对用户的吸引力。
现有相似文本识别技术在计算文本相似度时,主要采用基于词典或者特征工程的文本相似度计算技术,词典或者特征工程的准确性,在很大程度上影响算法准确性。
但是,针对词汇量少、语义信息少的短文本,如新闻标题来说,难以建立准确的词典或者特征工程,将导致现有相似文本识别技术难以捕捉短文本中的关键信息,相似度计算效果较差,相似文本识别率低。
即现有相似文本识别技术存在针对新闻标题等短文本的相似文本识别率低的技术问题。
发明内容
本发明实施例提供一种相似文本识别方法以及装置,以解决现有相似文本识别技术存在的针对短文本中相似文本识别率低的技术问题。
为解决上述技术问题,本发明实施例提供以下技术方案:
本发明实施例提供了一种相似文本识别方法,其包括:
获取文章的标题,得到标题文本集;
对所述标题文本集中的文本进行两两组合,得到文本对;
使用无监督机器学习模型,获取所述文本对内文本之间的第一相似度值;
使用训练后有监督机器学习模型,获取所述文本对内文本之间的第二相似度值;
根据所述第一相似度值和第二相似度值,从所述文本对中识别出文本相似的相似文本对。
本发明实施例提供了一种相似文本识别方法,其包括:
获取包括至少两个短文本的短文本集;
对所述短文本集中的短文本进行两两组合,得到短文本对;
使用无监督机器学习模型,获取所述短文本对内短文本之间的第一短文本相似度值;
使用训练后有监督机器学习模型,获取所述短文本对内短文本之间的第二短文本相似度值;
根据所述第一短文本相似度值和第二短文本相似度值,从所述短文本对中识别出短文本相似的相似短文本对。
本发明实施例提供了一种相似文本识别装置,其包括:
第一获取模块,用于获取文章的标题,得到标题文本集;
组合模块,用于对所述标题文本集中的文本进行两两组合,得到文本对;
第二获取模块,用于使用无监督机器学习模型,获取所述文本对内文本之间的第一相似度值;
第三获取模块,用于使用训练后有监督机器学习模型,获取所述文本对内文本之间的第二相似度值;
识别模块,用于根据所述第一相似度值和第二相似度值,从所述文本对中识别出文本相似的相似文本对。
本发明实施例将需要进行相似标题识别处理的文章标题组合为标题文本集,然后对标题文本集中的文本进行两两组合得到文本对,使用无监督机器学习模型得到第一相似度值,使用训练后有监督机器学习模型得到第二相似度值,最后根据第一相似度值和第二相似度值,识别文本对中的相似文本对;在该过程中,采用无监督机器学习模型与有监督机器学习模型融合的框架,来识别相似文本,基于无监督机器学习模型的快速识别特性,在保证识别准确的前提下快速过滤一批文章标题等短文本,然后利用有监督机器学习模型进一步召回相似文本,这样针对新闻标题等文本也可以进行相似文本的识别,并且采用两种学习模型融合,识别率更高,解决了现有相似文本筛选技术存在的针对新闻标题等短文本中相似文本识别率低的技术问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的通信系统的组网示意图;
图2是本发明实施例提供的相似文本识别方法的第一种流程示意图;
图3是本发明实施例提供的相似文本识别方法的第二种流程示意图;
图4是本发明实施例提供的推荐系统输入输出数据的示意图;
图5是本发明实施例提供的新闻推荐方法的流程示意图;
图6是本发明实施例提供的相似标题对识别装置的结构示意图;
图7是本发明实施例提供的相似标题对识别方法的流程示意图;
图8是本发明实施例提供的数据初始化的流程示意图;
图9是本发明实施例提供的无监督机器学习模型识别方法的流程示意图;
图10是本发明实施例提供的有监督机器学习模型识别方法的流程示意图;
图11是本发明实施例提供的CBOW模型示意图;
图12是本发明实施例提供的Skip-Gram模型示意图;
图13是本发明实施例提供的DSSM模型示意图;
图14是本发明实施例提供的Lstm单元示意图;
图15是本发明实施例提供的文本排序示意图;
图16是本发明实施例提供的阅读界面的示意图;
图17是本发明实施例提供的推荐界面的示意图;
图18是本发明实施例提供的相似文本识别装置的结构示意图;
图19是本发明实施例提供的终端的结构示意图;
图20是本发明实施例提供的服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种相似文本识别方法、装置、服务器及存储介质。以下分别进行详细说明。
请参阅图1,图1为本发明实施例所提供的通信系统的场景示意图,该通信系统可以包括用户终端11、网关12、提供各种数据以及业务支持的服务器13、以及后台系统14;其中:
用户终端11包括但不局限于手机、平板等便携终端,以及电脑等固定终端,用于为用户提供业务访问接口,并根据用户各种操作,生成对应的操作信息,并通过网关12传输至服务器13,在本发明实施例中,个人用户的用户终端11主要用于根据用户操作,从服务器获取新闻等文章,以及接收服务器推送的新闻等文章,并展示给用户;
网关12是连接服务器13与用户终端11的枢纽,主要进行数据请求以及响应的交互;
后台系统14是为新闻发布者等文本发布者提供接口的服务器,主要用于供用户将编辑好的新闻等文章上传到服务器13;
服务器13用于为用户提供各种业务服务,如提供新闻等文章、以及推荐新闻等文本等。在本发明所提供的应用场景中,服务器13至少用于实现天天快报等线上推荐系统,将输入的新闻标题分为两类,一类为新增的新闻标题记作增量新闻,另一类为历史的新闻标题记作全量新闻,通过本发明提供的识别方法识别在增量新闻和全量新闻中相似的新闻标题对;将识别出的新闻标题对进行持久化保存,用作线上推荐系统使用;通过针对用户信息和频道信息等做不同的策略,例如对相似的新闻标题不进行重复推荐,或者限制文章频道进行推荐等,提升用户体验,具体将在下文实施例中进行详细描述。
针对本发明提供的识别方法,服务器13将需要进行相似标题识别处理的文章标题组合为标题文本集,然后对标题文本集中的文本进行两两组合得到文本对,使用无监督机器学习模型得到第一相似度值,使用训练后有监督机器学习模型得到第二相似度值,最后根据第一相似度值和第二相似度值,识别文本对中的相似文本对。
在本发明实施例中,通过采用无监督机器学习模型与有监督机器学习模型融合的框架,来识别相似文本,基于无监督机器学习模型的快速识别特性,在保证识别准确的前提下快速过滤一批文章标题等短文本,然后利用有监督机器学习模型进一步召回相似文本,这样针对新闻标题等文本也可以进行相似文本的识别,并且采用两种学习模型融合,识别率更高,解决了现有相似文本筛选技术存在的针对新闻标题等短文本中相似文本识别率低的技术问题。
在本发明中,将新闻表情、网页标题等文章标题都视为一个文本,两两文本组合成一个文本对。
在本发明中,相似文本对是指该文本对内的两个文本是相似文本,即这两个文本之间的相似度大于一个阈值。
在本发明中,不相似文本对是指两个文本不相似。
在本发明中,文本的文本标识用来唯一标识一个文本,可以根据文本的生成时间来生成,若在同一时间确定多个主题词,则可以使用时间与区别码结合的方式生成标识。例如,在2011年11月11日04时22分36秒生成新闻标题“北京博物馆举行0011次会展”,就可以将这个新闻标题“北京博物馆举行0011次会展”记为一个文本,该文本的文本标识配置为W20111111042236,又例如,在2011年11月11日04时22分36秒生成新闻标题“北京博物馆举行0011次会展”以及新闻标题“北京博物馆第0011次会展的展品介绍”这2个新闻标题,将“北京博物馆举行0011次会展”的文本标识配置为W20111111042236-1,将新闻标题“北京博物馆第0011次会展的展品介绍”的文本标识配置为W20111111042236-2。
在本发明中,分词索引与分词对应,一个分词的分词索引用于确定所述标题文本集中包含相应分词的文本,例如其包括所述标题文本集中包含相应分词的文本的文本标识,例如分词为“北京”,该分词的分词索引就可以确定索引包括“北京”的文本。本发明实施例通过引入分词索引,可以快速的查找包含相应分词的文章标题等文本。
可选的,分词索引可以如下表1所示:
分词 | 分词标识 | 分词索引 |
北京博物馆 | F0001 | W20111111042236-1;W20111111042236-2;…… |
0011次 | F0002 | ……;W20111111042236-1;W20111111042236-2; |
会展 | F0003 | ……;W20111111042236-1;W20111111042236-2; |
展品介绍 | F0004 | W20111111042236-2;…… |
表1
在表1中,分词“北京博物馆”对应的分词索引为“W20111111042236-1;W20111111042236-2”,可以确定“北京博物馆举行0011次会展”以及“北京博物馆第0011次会展的展品介绍”这两个文本,而分词“展品介绍”对应的分词索引为“W20111111042236-2”,可以确定“北京博物馆第0011次会展的展品介绍”这个文本。
在本发明中,主题词的主题词标识用于唯一标识对应的主题词,可以根据第一次出现该主题词的时间来生成,若在同一时间确定多个主题词,则可以使用时间与区别码结合的方式生成标识。例如,在2011年11月11日04时22分36秒生成主题词“北京博物馆”,就可以将这个主题词“北京博物馆”的主题词标识配置为20111111042236,又例如,在2011年11月11日04时22分36秒生成“北京博物馆”和“0011次会展”这2个主题词,将主题词“北京博物馆”的主题词标识配置为20111111042236-1,将主题词“0011次会展”的主题词标识配置为20111111042236-2。
在本发明中,第一相似度值是指使用无监督机器学习模型,对文本对内文本之间的相似度进行计算得到的相似度值;第二相似度值是指使用有监督机器学习模型,对文本对内文本之间的相似度进行计算得到的相似度值;这两个相似度值可以相同,也可以不同。
在本发明中,无监督机器学习模型是指不需要使用包含相似文本和不相似文本的训练语料进行训练的机器学习模型,而有监督机器学习模型是指需要使用包含相似文本和不相似文本的训练语料进行训练的机器学习模型。
在本发明中,文本是由字段组成的,相邻字段组成分词,有些文本之间具备相同的分词,例如“北京博物馆举行0011次会展”和“北京博物馆第0011次会展的展品介绍”这两个文本具备相同分词“北京博物馆”和“0011次会展”,而有些文本之间不具备相同的分词,例如“北京博物馆举行0011次会展”和“上海房价同比增加14%”这两个文本不具备任何相同分词。
在本发明中,相似度值(包括第一相似度值、第二相似度值、以及其他相似度值)可以是一个百分比,例如80%等,也可以是具体的数值,如0.90等,也可以是相对数值,例如相对数值“1”标识2个文本相似,相对数值“0”标识2个文本不相似。
在本发明中,待召回文本对是指需要再次计算文本对内文本之间相似度的文本对。
在本发明中,短文本是指文本内容少于预定个数的文本等,预定个数可以是100个、30个等任意数量,文本内容可以是单一文种,例如中文、英文等,也可以是多个文种的混合。
需要说明的是,图1所示的系统场景示意图仅仅是一个示例,本发明实施例描述的服务器以及场景是为了更加清楚的说明本发明实施例的技术方案,并不构成对于本发明实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统的演变和新业务场景的出现,本发明实施例提供的技术方案对于类似的技术问题,同样适用。
以下针对文本为文章标题的场景进行相似文本识别的方法进行详细说明。
图2是本发明实施例提供的相似文本识别方法的第一种流程示意图,请参阅图2,该相似文本识别方法包括以下步骤:
S201:获取文章的标题,得到标题文本集。
本步骤将需要进行相似标题识别处理的新闻标题、网页标题等文章的标题,作为文本,然后将这些文本组合得到标题文本集;这样,标题文本集就包括很多文本。
S202:对所述标题文本集中的文本进行两两组合,得到文本对。
由于相似文本是指两个文本相似,因此本步骤将标题文本集中的文本进行两两组合,得到多个文本对。
在进行相似文本识别时,若两个文本具备相同分词,其可能是相似文本,若两个文本不具备相同分词,其一定不是相似文本,那么为了降低服务器的识别压力,减少资源浪费,本步骤包括:获取文本所包含的分词;将包含相同分词的文本两两组合,以建立文本对;将不包含相同分词的文本,直接识别为不相似文本。
例如,将“北京博物馆举行0011次会展”和“北京博物馆第0011次会展的展品介绍”这两个文本组合为一个文本对,则将“北京博物馆举行0011次会展”和“上海房价同比增加14%”这两个文本直接识别为不相似文本对。
可选的,将包含相同分词的文本两两组合,以建立文本对的步骤包括:从所述标题文本集中选择文本,标记为第一文本;获取所述第一文本中所有分词对应的分词索引;所述分词对应的分词索引包括所述标题文本集中包含相应分词的文本;查找所述分词索引对应的文本,标记为第二文本;从所述第二文本中选择一个与所述第一文本组成所述文本对。
例如,将“北京博物馆举行0011次会展”作为第一文本,第一文本包括分词“北京博物馆”、“举行”、“0011次”、“会展”等分词,然后分别获取这些分词对应的分词索引,例如分词“北京博物馆”对应的分词索引包括文本“北京博物馆第0011次会展的展品介绍”等等,依次类推,得到包含“北京博物馆”、“举行”、“0011次”、“会展”等分词中至少一个分词的所有文本,作为第二文本,然后,然后逐一与第一文本两两组合为文本对。
S203:使用无监督机器学习模型,获取所述文本对内文本之间的第一相似度值。
本步骤可以仅使用一种无监督机器学习模型,得到第一相似度值,也可以使用多种无监督机器学习模型,得到多个相似度值,然后基于投票、权重计算等策略,得到第一相似度值。
可选的,所述无监督机器学习模型包括主题词相似度模型、向量空间余弦相似度模型以及词向量余弦相似度模型;本步骤包括:使用所述主题词相似度模型,得到所述文本对内文本之间的主题词相似度;使用所述向量空间余弦相似度模型,得到所述文本对内文本之间的向量空间余弦相似度;使用所述词向量余弦相似度模型,得到所述文本对内文本之间的词向量余弦相似度;基于所述主题词相似度、向量空间模型余弦相似度以及词向量余弦相似度,得到所述第一相似度值。在本实施例中,采用3种模型分别计算两文本之间的相似度,避免单一模型出现计算错误的问题,使得计算结果更准确。
可选的,所述使用所述主题词相似度模型,得到所述文本对内文本之间的主题词相似度的步骤,包括:根据主题词的主题词标识,对文本中的主题词进行排序;根据排序结果,确定所述文本对内文本之间的相同主题词;根据所述文本对内文本之间的相同主题词个数、以及所述文本对内文本包含的所有主题词个数,得到所述主题词相似度。
在本实施例中,对文本中的主题词进行排序可以快速确定相同主题词。例如,针对“北京博物馆举行0011次会展”和“北京博物馆第0011次会展的展品介绍”这两个文本,文本“北京博物馆举行0011次会展”包括主题词“北京博物馆”、“0011次”、“会展”,而文本“北京博物馆第0011次会展的展品介绍”包括主题词“北京博物馆”、“0011次”、“会展”、“展品介绍”,现在假设:主题词“会展”的主题词标识为“ZT0001”、主题词“北京博物馆”的主题词标识为“ZT0002”、主题词“0011次”的主题词标识为“ZT0003”、主题词“展品介绍”的主题词标识为“ZT0004”,然后根据这些主题词标识进行排序,如图15所示,将文本“北京博物馆举行0011次会展”排序为“会展北京博物馆0011次举行”,将文本“北京博物馆第0011次会展的展品介绍”排序为“会展北京博物馆0011次展品介绍”,这次基础上通过4次(单个文本中主题词数量最多的个数)查找,就可以确定相同主题词,加快了确定速度。
可选的,可以基于权重策略得到第一相似度值,此时,所述基于所述主题词相似度、向量空间模型余弦相似度以及词向量余弦相似度,得到所述第一相似度值的步骤,包括:获取所述主题词相似度模型、向量空间余弦相似度模型以及词向量余弦相似度模型分别对应的相似文本识别准确率;根据所述相似文本识别准确率,确定所述主题词相似度、向量空间余弦相似度以及词向量余弦相似度分别对应的权重系数;根据所述主题词相似度、向量空间模型余弦相似度以及词向量余弦相似度,以及所述权重系数,得到所述第一相似度值。
例如,主题词相似度模型的相似文本识别准确率为85%,向量空间余弦相似度模型的相似文本识别准确率为90%,词向量余弦相似度模型的相似文本识别准确率为95%,然后计算这3个相似文本识别准确率的比值为17:18:19,根据比值,确定主题词相似度的权重系数为17/(17+18+19)=31.5%,向量空间余弦相似度的权重系数为18/(17+18+19)=33.3%,词向量余弦相似度的权重系数为19/(17+18+19)=35.2%。若针对一个文本对,主题词相似度为90%,向量空间余弦相似度为85%,词向量余弦相似度为95%,那么,该文本对的第一相似度值为90%*31.5%+85%*33.3%+95%*35.2%=90.1%。
可选的,权重系数也可以是其他的计算方式得到,例如,将识别准确率最高的相似度模型对应的权重系数设置为0.5,次之设置为0.3,最小的设置为0.2,针对上述例子,主题词相似度模型的相似文本识别准确率为85%,向量空间余弦相似度模型的相似文本识别准确率为90%,词向量余弦相似度模型的相似文本识别准确率为95%,然后计算这3个相似文本识别准确率的比值为17:18:19,根据比值,确定主题词相似度的权重系数为0.2,向量空间余弦相似度的权重系数为0.3,词向量余弦相似度的权重系数为0.5,然后进行权重计算。
可选的,基于所述主题词相似度、向量空间模型余弦相似度以及词向量余弦相似度,得到所述第一相似度值的步骤,还可以包括:根据决策策略、以及主题词相似度、向量空间模型余弦相似度以及词向量余弦相似度,得到所述第一相似度值。
决策策略可以如下表2所示:
表2
在表2中,相似度采用相对数值的方式表示,具体内容已经在上文进行了描述,不再赘述。
S204:使用训练后有监督机器学习模型,获取所述文本对内文本之间的第二相似度值。
第二相似度值与第一相似度值类似,也可以通过多种有监督机器学习模型得到多个相似度值,然后基于步骤S203类似的决策策略得到第二相似度值,不再赘述。
由于有监督机器学习模型需要使用训练语料进行训练,现有训练语料需要人工获取,为了解放人工,本发明还提供了训练语料的获取方式,即基于步骤S203的识别结果,得到训练语料,因此,本发明实施例在步骤S204之前,还包括:基于所述文本对内文本之间的第一相似度值,对所述标题文本集内的文本进行处理,得到训练语料;使用所述训练语料对有监督机器学习模型进行训练,得到所述训练后有监督机器学习模型。基于本步骤,不再需要人工构建训练语料,实现了训练语料的自动收集。
可选的,所述基于所述文本对内文本之间的第一相似度值,对所述标题文本集内的文本进行处理,得到训练语料的步骤包括:从所述标题文本集内选择一个文本,标记为目标文本;将包括所述目标文本的文本对,标记为目标文本对;根据所述目标文本对内文本之间的第一相似度值,确定与所述目标文本之间的第一相似度值大于第一相似度阈值的第一文本,以及与所述目标文本之间的第一相似度值小于所述第一相似度阈值的第二文章标题文本;将所述第一文本识别为所述目标文本的相似文本,将所述第二文本识别为所述目标文本的不相似文本;对所述目标文本、所述目标文本的相似文本、以及所述目标文本的不相似文本进行聚类处理,得到所述训练语料。
例如,有监督机器学习模型为深度匹配语义模型DSSM,其通过输入(title,pos,neg1,neg2……)的形式来训练模型,训练语料就包括多个(title,pos,neg1,neg2……),针对任意一个(title,pos,neg1,neg2……),pos代表文本title的相似文本,其与title之间的第一相似度值大于第一相似度阈值,neg代表title的不相似文本,其与title之间的第一相似度值小于第一相似度阈值。在训练过程中最大化拟合title和pos相似的概率,最小化拟合title和neg之间的相似概率,最终模型将title和pos编码成低纬度的语义向量,并通过cosine距离来计算两个语义向量的距离,最终训练出语义相似度模型。
在一些实施例中,为了进一步降低计算量,本步骤可以仅针对无监督机器学习模型识别为不相似文本对的进行识别,因此,可选的,本步骤包括:在文本对中,筛选得到待召回文本对;所述待召回文本对内文本之间的第一相似度值小于第一相似度阈值;使用所述训练后有监督机器学习模型,计算所述待召回文本对内文本之间的第二相似度值。
例如,需要识别的新闻标题数量为10000个,这些文本两两组合将得到10000*9999/2=49995000个文本对,在这些文本对中,第一相似度值小于第一相似度阈值的文本对个数为200000。此时,仅获得这200000个文本对内文本之间的第二相似度值的工作量,将远远小于同时获得49995000个文本对内文本之间的第二相似度值的工作量,因此,本实施例将很大程度的降低计算资源的浪费。
为了保证相似文本的识别效果,对所有文本对都获取第二相似度值,识别效果最好,因此,在一些实施例中,本步骤还可以包括:根据文本数量,确定文本对数量;当文本对数量大于数量阈值时,在文本对中,筛选得到待召回文本对;使用所述训练后有监督机器学习模型,计算所述待召回文本对内文本之间的第二相似度值。例如数量阈值被配置为100000,若新闻标题数量为10000个时,将得到49995000个文本对,远远大于100000,可以仅计算待召回文本对内文本之间的第二相似度值,又如新闻标题数量为100个时,将得到4950个文本对,小于100000,可以对这4950个文本对都计算得到第二相似度值。
S205:根据所述第一相似度值和第二相似度值,从所述文本对中识别出文本相似的相似文本对。
本步骤可以通过以下方式中的至少一种来实现:
方式一、将文本对内文本之间的第一相似度值大于第一相似度阈值的文本对,识别为所述相似文本对;本方式主要是根据步骤S203的计算结果,直接将文本对识别为相似文本对和待召回文本对;
方式二、将文本对内文本之间的第二相似度值大于第二相似度阈值的文本对,识别为相似文本对;本方式主要是根据步骤S204的计算结果,直接将文本对识别为相似文本对和不相似文本对,或者将待召回文本对识别为相似文本对和不相似文本对;
方式三、将文本对内文本之间的第一相似度值大于第一相似度阈值、且第二相似度值大于第二相似度阈值的文本对,识别为相似文本对;本方式主要是同时考虑第一相似度值和第二相似度值,将文本对识别为相似文本对和不相似文本对;
方式四、根据预设策略,如权重策略、决策策略等,根据第一相似度值和第二相似度值计算得到最终相似度值,然后与一个阈值进行比较,以确定文本对是否为相似文本对;该方式涉及的权重策略和决策策略与步骤S203类型,不再赘述。
例如,将图16和图17所示的两个新闻标题“绝地求生:蓝洞故意弄出这个涂鸦来坑人,玩家看后直言已经上当”和“绝地求生,玩家错买100个平底锅,没想到几天赚了上万块”识别为相似文本,进行推荐。
本发明实施例将需要进行相似标题识别处理的文章标题组合为标题文本集,然后对标题文本集中的文本进行两两组合得到文本对,使用无监督机器学习模型得到第一相似度值,使用训练后有监督机器学习模型得到第二相似度值,最后根据第一相似度值和第二相似度值,识别文本对中的相似文本对;在该过程中,采用无监督机器学习模型与有监督机器学习模型融合的框架,来识别相似文本,基于无监督机器学习模型的快速识别特性,在保证识别准确的前提下快速过滤一批文章标题等短文本,然后利用有监督机器学习模型进一步召回相似文本,这样针对新闻标题等文本也可以进行相似文本的识别,并且采用两种学习模型融合,识别率更高,解决了现有相似文本筛选技术存在的针对新闻标题等短文本中相似文本识别率低的技术问题。
以下针对文本为短文本的场景进行相似文本识别的方法进行详细说明。
图3是本发明实施例提供的相似文本识别方法的第二种流程示意图,请参阅图3,该相似文本识别方法包括以下步骤:
S301:获取包括至少两个短文本的短文本集。
本步骤将需要进行相似标题识别处理的文章、网站内容等,作为短文本,然后将这些短文本组合得到短文本集;这样,短文本集就包括很多短文本。
S302:对所述短文本集中的短文本进行两两组合,得到短文本对。
由于相似文本是指两个文本相似,因此本步骤将短文本集中的短文本进行两两组合,得到一个或者多个短文本对。
在进行相似文本识别时,若两个文本具备相同分词,其可能是相似文本,若两个文本不具备相同分词,其一定不是相似文本,那么为了降低识别压力,减少资源浪费,本步骤包括:获取短文本所包含的分词;将包含相同分词的短文本两两组合,以建立短文本对;将不包含相同分词的文本,识别为短文本不相似的不相似短文本对。
例如,将“第三代处理器”和“第四代处理器”这两个短文本组合为一个需要进行识别的短文本对,则将“第三代处理器”和“上海房价”这两个短文本直接识别为不需要进行识别、且短文本不相似的不相似文本对。
可选的,将包含相同分词的短文本两两组合,以建立短文本对的步骤包括:从所述短文本集中选择第一短文本;获取所述第一短文本中所有分词对应的分词索引;所述分词对应的分词索引包括所述短文本集中包含相应分词的短文本;查找所述分词索引对应的短文本,标记为第二短文本;从所述第二短文本中选择一个与所述第一短文本组成所述短文本对。
例如,将“第三代处理器”作为第一短文本,第一短文本包括分词“第三代”、“处理器”等分词,然后分别获取这些分词对应的分词索引,例如分词“处理器”对应的分词索引包括短文本“第四代处理器”等等,依次类推,得到包含“第三代”、“处理器”等分词中至少一个分词的所有短文本,作为第二短文本,然后,然后逐一与第一短文本两两组合为短文本对。
S303:使用无监督机器学习模型,获取所述短文本对内短文本之间的第一短文本相似度值。
本步骤可以仅使用一种无监督机器学习模型,对短文本对进行识别,得到第一短文本相似度值,也可以使用多种无监督机器学习模型,分别对短文本对进行识别,得到多个短文本相似度值,然后基于投票、权重计算等策略,得到第一短文本相似度值。
可选的,所述无监督机器学习模型包括主题词相似度模型、向量空间余弦相似度模型以及词向量余弦相似度模型;本步骤包括:使用所述主题词相似度模型,得到所述短文本对内短文本之间的主题词短文本相似度;使用所述向量空间余弦相似度模型,得到所述短文本对内短文本之间的向量空间余弦短文本相似度;使用所述词向量余弦相似度模型,得到所述短文本对内短文本之间的词向量余弦短文本相似度;基于所述主题词短文本相似度、向量空间模型余弦短文本相似度以及词向量余弦短文本相似度,得到所述第一短文本相似度值。在本实施例中,采用3种模型分别计算两短文本之间的短文本相似度,避免单一模型识别不准确的问题,使得识别结果更准确。
无监督机器学习模型如何对短文本进行识别可以参照步骤S203的具体内容,不再赘述。
S304:使用训练后有监督机器学习模型,获取所述短文本对内短文本之间的第二短文本相似度值。
第二短文本相似度值与第一短文本相似度值类似,也可以通过多种有监督机器学习模型得到多个短文本相似度值,然后基于步骤S203类似的决策策略得到第二短文本相似度值,不再赘述。
由于有监督机器学习模型需要使用训练语料进行训练,现有训练语料需要人工对短文本是否相似进行识别,然后组合得到训练语料,为了降低人工资源的方法,本发明还提供了训练语料的获取方式,即基于步骤S303的识别结果,得到训练语料,因此,本发明实施例在步骤S304之前,还包括:基于所述短文本对内短文本之间的第一短文本相似度值,对所述短文本集的短文本进行处理,得到所述有监督机器学习模型的训练语料;使用所述训练语料对有监督机器学习模型进行训练,得到所述训练后有监督机器学习模型。基于本步骤,不再需要人工构建训练语料,实现了训练语料的自动收集。
可选的,所述基于所述短文本对内短文本之间的第一短文本相似度值,对所述短文本集的短文本进行处理,得到所述有监督机器学习模型的训练语料的步骤包括:从所述短文本集内选择一个短文本,标记为目标短文本;将包括所述目标短文本的短文本对,标记为目标短文本对;根据所述目标短文本对内短文本之间的第一短文本相似度值,确定与所述目标短文本之间的第一短文本相似度值大于第一短文本相似度阈值的第一短文本,以及与所述目标短文本之间的第一短文本相似度值小于所述第一短文本相似度阈值的第二短文本;将所述第一短文本识别为所述目标短文本的相似短文本,将所述第二短文本识别为所述目标短文本的不相似短文本;对所述目标短文本、所述目标短文本的相似短文本、以及所述目标短文本的不相似短文本进行聚类处理,得到所述训练语料。
例如,有监督机器学习模型为深度匹配语义模型DSSM,其通过输入(title,pos,neg1,neg2……)的形式来训练模型,训练语料就包括多个(title,pos,neg1,neg2……),针对任意一个(title,pos,neg1,neg2……),pos代表短文本title的相似短文本,其与title之间的第一短文本相似度值大于第一短文本相似度阈值,neg代表title的不相似短文本,其与title之间的第一短文本相似度值小于第一短文本相似度阈值。在训练过程中最大化拟合title和pos相似的概率,最小化拟合title和neg之间的相似概率,最终模型将title和pos编码成低纬度的语义向量,并通过cosine距离来计算两个语义向量的距离,最终训练出语义相似度模型。
在一些实施例中,为了进一步降低计算量,本步骤可以仅针对无监督机器学习模型识别为不相似短文本对的进行识别,因此,可选的,本步骤包括:在短文本对中,筛选得到待召回短文本对;所述待召回短文本对内短文本之间的第一短文本相似度值小于第一短文本相似度阈值;使用所述训练后有监督机器学习模型,计算所述待召回短文本对内短文本之间的第二短文本相似度值。本实施例将很大程度的降低计算资源的浪费。
为了保证相似短文本的识别效果,对所有短文本对都获取第二短文本相似度值,识别效果最好,因此,在一些实施例中,本步骤还可以包括:根据短文本数量,确定短文本对数量;当短文本对数量大于数量阈值时,在短文本对中,筛选得到待召回短文本对;使用所述训练后有监督机器学习模型,计算所述待召回短文本对内短文本之间的第二短文本相似度值。例如数量阈值被配置为100000,若短文本数量为10000个时,将得到49995000个短文本对,远远大于100000,可以仅计算待召回短文本对内短文本之间的第二短文本相似度值,又如短文本数量为100个时,将得到4950个短文本对,小于100000,可以对这4950个短文本对都计算得到第二短文本相似度值。
S305:根据所述第一短文本相似度值和第二短文本相似度值,从所述短文本对中识别出短文本相似的相似短文本对。
本步骤可以通过以下方式中的至少一种来实现:
方式一、将短文本对内短文本之间的第一短文本相似度值大于第一短文本相似度阈值的短文本对,识别为所述相似短文本对;本方式主要是根据步骤S303的计算结果,直接将短文本对识别为相似短文本对和待召回短文本对;
方式二、将短文本对内短文本之间的第二短文本相似度值大于第二短文本相似度阈值的短文本对,识别为相似短文本对;本方式主要是根据步骤S304的计算结果,直接将短文本对识别为相似短文本对和不相似短文本对,或者将待召回短文本对识别为相似短文本对和不相似短文本对;
方式三、将短文本对内短文本之间的第一短文本相似度值大于第一短文本相似度阈值、且第二短文本相似度值大于第二短文本相似度阈值的短文本对,识别为相似短文本对;本方式主要是同时考虑第一短文本相似度值和第二短文本相似度值,将短文本对识别为相似短文本对和不相似短文本对;
方式四、根据预设策略,如权重策略、决策策略等,根据第一短文本相似度值和第二短文本相似度值计算得到最终短文本相似度值,然后与一个阈值进行比较,以确定短文本对是否为相似短文本对;该方式涉及的权重策略和决策策略与步骤S203类型,不再赘述。
本步骤涉及的第一短文本相似度阈值可以参照第一相似度阈值,第二短文本相似度阈值可以参照第二相似度阈值,不再赘述。
本发明实施例将需要进行相似文本识别处理的短文本组合为短文本集,然后对短文本集中的短文本进行两两组合得到短文本对,使用无监督机器学习模型得到第一短文本相似度值,使用训练后有监督机器学习模型得到第二短文本相似度值,最后根据第一短文本相似度值和第二短文本相似度值,识别短文本对中的相似短文本;在该过程中,采用无监督机器学习模型与有监督机器学习模型融合的框架,来识别相似短文本,基于无监督机器学习模型的快速识别特性,在保证识别准确的前提下快速过滤一批短文本,然后利用有监督机器学习模型进一步召回相似短文本,这样针对短文本也可以进行相似文本的识别,并且采用两种学习模型融合,识别率更高。
本发明提供的方法可以运用到各种场景中,本实施例以新闻标题为文本为例进行说明。文本提取方法以及装置可以仅由服务器实现,也可以仅由手机等用户终端实现,还可以由用户终端与服务器配合实现。
本发明提供的文本提取方法中的各个步骤可以顺序运行,也可以多线程同时运行。
现以新闻推荐场景为例,结合附图对本发明做进一步的诠释说明。
本发明将新闻分为两类,一类为新增的新闻记作增量新闻,另一类为历史的新闻记作全量新闻;为了便于下文描述,将全量新闻的新闻标题记为全量标题,增量新闻的新闻标题记为增量标题;针对全量标题,其已经进行过相似文本的识别以及初始化处理等,因此仅需要对增量标题进行初始化处理、增量标题之间相似标题对的识别、增量标题与全量标题之间相似标题对的识别等处理即可。
具体的,如图4所示,新闻推荐场景对应推荐系统的输入数据包括:用户信息、频道信息以及相似标题对,推荐系统的输出数据包括为用户推荐的相关新闻;其中:
用户信息为服务器根据客户端上传的用户标识查找得到的反映用户喜好的信息,如用户画像等,用户画像用于表征用户的爱好,如用户画像为游戏爱好者,则代表用户爱好游戏,比较关注游戏新闻等;
频道信息是指新闻标题所属频道的信息,用于确定新闻对应的频道,如军事等频道;服务器在接收到后台系统上传的新闻之后,就可以根据新闻内容确定新闻对应的频道;
相似标题对内的两个新闻标题是相似标题,这样推荐系统就可以确定那些新闻标题是相似的,那些新闻标题是不相似的;针对如何获取相似标题对,服务器在获取到增量标题以及全量标题之后,使用相似文本识别方法对增量标题进行初始化处理、增量标题之间相似标题对的识别、增量标题与全量标题之间相似标题对的识别等处理即可得到相似标题对;
推荐系统中的策略模块根据用户信息和频道信息等做不同的推荐策略,例如对相似的新闻标题不进行重复推荐,或者限制文章频道进行推荐等,提升用户体验;
相关新闻为推荐系统中的推荐模块在用户阅读某些新闻之后,根据推荐策略为用户推荐的新闻,如为用户推荐的相似新闻,或者不相似新闻。
具体的,以推荐系统的功能由服务器实现、用户信息为用户画像为例,对本发明做进一步的诠释说明;如图5所示,本实施例提供的新闻推荐方法包括以下步骤:
S501:后台系统上传增量新闻到服务器。
用户,例如新闻发布者通过后台系统上传增量新闻到服务器,例如上传标题为“绝地求生,玩家错买100个平底锅,没想到几天赚了上万块”的新闻到服务器。
S502:服务器确定相似标题对。
服务器使用本发明提供的相似文本识别方法,确定增量新闻与全量新闻之间的相似新闻标题,例如,将两个新闻标题“绝地求生:蓝洞故意弄出这个涂鸦来坑人,玩家看后直言已经上当”和“绝地求生,玩家错买100个平底锅,没想到几天赚了上万块”识别为相似标题对。
本步骤的具体实现,将在下文中进行描述。
S503:服务器根据新闻标题确定新闻标题对应的频道信息。
服务器根据新闻标题确定新闻归属频道的频道信息,例如军事、娱乐等频道。
不同频道信息对应不同的推荐方式;例如,在军事、娱乐等频道仅推荐相似标题,便于用户全面了解一个事情,而在另外一些频道,如经济、政策等频道,不推荐相似标题,以避免相似新闻浪费用户精力。
S504:用户通过客户端访问服务器。
用户通过手机应用等方式访问服务器提供的新闻界面,并浏览图15所示的新闻标题为“绝地求生:蓝洞故意弄出这个涂鸦来坑人,玩家看后直言已经上当”的新闻。
S505:服务器获取用户画像。
服务器根据用户标识,查找该用户对应的用户画像,如游戏爱好者等。
S506:服务器根据用户画像以及阅读历史确定推荐策略。
服务器根据用户画像,确定该用户喜好游戏新闻,而游戏新闻对应的推荐策略是推荐相似标题,同时阅读历史中最后一篇的阅读记录为阅读了标题为“绝地求生:蓝洞故意弄出这个涂鸦来坑人,玩家看后直言已经上当”的新闻,那么该用户对应的推荐策略是推荐相似标题。
根据频道信息确定不同的推荐策略;
S507:服务器确定推荐内容。
因为该用户在浏览标题为“绝地求生:蓝洞故意弄出这个涂鸦来坑人,玩家看后直言已经上当”的新闻后,该用户对应的推荐策略为推荐相似标题,因此将标题为“绝地求生,玩家错买100个平底锅,没想到几天赚了上万块”的新闻作为推荐内容。
S508:服务器将推荐内容发送至用户终端。
服务器将推荐的新闻,即标题为“绝地求生,玩家错买100个平底锅,没想到几天赚了上万块”的新闻发送至用户终端。
S509:用户终端展示推荐内容。
如图17所示,用户终端通过客户端向用户展示标题为“绝地求生,玩家错买100个平底锅,没想到几天赚了上万块”的新闻。
针对步骤S502涉及的相似文本识别方法,本实施例也提供了对应的实现方式,如图6所示,实现该方式的相似文本识别装置包括:
数据输入模块61:用于获取增量标题和全量标题;
数据初始化模块62:用于对增量标题和全量标题等数据进行数据初始化处理,并将处理结果作为新闻标题的标题属性进行持久化保存;
相似文本识别模块63:用于对增量标题和全量标题中的相似标题进行识别,并输出相似标题对等识别结果。
其中,数据初始化模块62包括:
预处理单元621,用于对新闻标题进行切词等预处理,得到各新闻标题对应的分词,并建立各新闻标题的倒排索引;
主题词单元622,用于对新闻标题进行处理得到新闻标题的主题词;
语义编码单元623,用于将新闻标题送入训练后的机器学习模型中,得到新闻标题对应的语义编码;
存储单元624,用于将新闻标题对应的分词、倒排索引、主题词以及语义编码进行持久化保存。
其中,相似文本识别模块63包括:
无监督识别单元631,用于使用无监督识别方法得到各新闻标题之间的无监督相似度,进而得到第一相似度;
有监督识别单元632,用于使用有监督识别方法得到各新闻标题之间的有监督相似度,进而得到第二相似度;
相似文本判定单元633,用于基于第一相似度以及第二相似度确定相似标题对。
以新闻标题为文本为例进行说明,如图7至图10所示,本发明提供的相似文本识别方法包括以下步骤:
S701:系统初始化。
本步骤包括无监督机器学习模型的训练,以及配置3个相似度阈值的初始值。
本发明涉及的无监督机器学习模型可以是多种多样的,本实施例以主题词Jaccard相似度模型、向量空间模型(VSM)余弦相似度模型,标题词Word2vec向量余弦相似度模型这3个为例进行说明。
在本发明其他实施例中,可以通过筛选高质量的训练语料,引入注意力机制的机器学习模型既可以学习到带有标题关键词信息的语义编码,使得语义表达更加接近人类的习惯,在评侧高效准确的前提下可以代替本实施例中的无监督机器学习模型。
空间模型(VSM)余弦相似度模型把对文本内容的处理简化为向量空间中的向量,将文本转化为计算机可识别的数字形式,用以计算空间上的相似度表达语义的相似度。计算两篇新闻标题映射到idf空间向量的余弦相似度值来衡量相似度,在系统初始化时,需要基于大规模新闻语料统计出新闻文本的idf词典,idf的值代表词的重要性。
标题词Word2vec向量余弦相似度模型基于在大规模新闻语料上预训练好单词的语义向量,计算新闻标题对应加权向量之间的cosine相似度,在系统初始化时,需要整理大规模的新闻标题语料,去停用词,归一化等预处理清洗数据,然后利用word2vec模型训练得到词的语义向量。
配置3个初始阈值,即TH1、TH2、TH3。
S702:服务器获取新闻标题,并进行数据初始化处理。
服务器通过各种方式获取新闻标题之后,对标题进行分词以及词性标注,同时在预处理的过程中引入了主题词信息和标题的语义编码信息,将这两者与分词、词性标注等作为标题的属性信息,将这些信息进行持久化保存。
在预处理之后,对全量的新闻标题数据上以切词粒度建立倒排索引,每个索引(即分词索引)的值为含有该词的所有新闻标题。在计算一个新闻标题与全量数据的标题相似度时,取出该标题中所有词索引对应的新闻标题,将这些标题作为待计算的标题数据。倒排索引的前提是两篇标题没有任何相同词,那么认为这两篇标题不相似。
具体的,如图8所示,本步骤包括以下步骤:
S801:服务器采集新闻标题,得到文本数据。
服务器收集历史新闻标题库中的全量数据,以及新增加标题的增量数据。
S802:服务器对文本数据进行切词处理。
服务器对全量数据和增量数据进行预处理操作,切词、持久化保存、建立倒排索引。
S803:服务器获取文本的主题词。
服务器将增量数据和全量数据进行主题词提取获得新闻标题的主题词。
服务器取新闻标题中的主题词作为标题的代表,这里的主题词是预先处理保存,利用概率图模型textrank,根据新闻文本中词语出现的位置信息对标题中的词进行重要度排序,并给出重要度分值。具体的,本步骤包括:
利用词向量模型word2vec在新闻领域语料上训练词语的语义向量;
根据textrank得分top20的词进行加权求和得到新闻文本的语义向量;
根据标题中的每个候选词的词向量计算与新闻语义向量的cosine相似度作为每个候选;
基于词与新闻语义相关性的衡量,选取得分top k的词作为标题中的主题词。
S804:服务器获取文本的语义编码。
服务器通过机器学习模型获取新闻标题的语义编码,具体的,本步骤包括:将新闻标题中出现的词映射到idf向量空间。在映射的过程中做了词的归一化处理,对标题中出现的实体词和量词进行加权,并对较短和较长的标题做了修正策略。
在本发明实施例中,实体词是指具备实际含义的词,例如“北京博物馆”、“金价走势”等,而量词表示计数的词,如“2017年1月1日”、“第1122次”等;针对实体词和量词,配置不同的权重系数,量词的权重系数应该大于实体词的权重系数,这是因为不同的量词往往代表着不同的新闻,例如“2017年1月1日金价走势”和“2018年1月1日金价走势”显然不是相似新闻,通过调整权重系数,将更准确的识别相似新闻。
针对较短的标题,这类标题内的分词数量过少,不能准确反映文本内容,因此需要增加一些相似分词,例如为“金价走势”增加“国际金价走势”等分词。
针对较长的标题,这类标题内的分词数量过多,计算量比较大,可以删除一些分词,例如删除“举行”等分词。
S703:使用无监督机器学习模型进行第一次识别。
服务器将增量数据和全量数据作为算法的输入,利用无监督的方法快速过滤一批相似标题对。具体的,如图9所示,本步骤包括以下步骤:
S901:计算主题词Jaccard相似度。
本步骤计算两篇新闻标题中主题词的Jaccard相似度来衡量相似度,具体的,计算每个新闻标题对之间的Jaccard相似度,大于阈值TH1,则作为相似新闻标题。
具体的,给定两个集合A,B,Jaccard相似度定义为A与B交集的大小与A与B并集的大小的比值,即:
采用主题词标识排序的形式进行相同主题词查找上,通过一次遍历就能查找出两个新闻标题之间的相同词。具体的对全量数据和增量数据建立词索引,并将每个标题中的词按照索引进行排序存储。查找时仅需要遍历两个标题的长度即可获取相同的词,查找时间变为O(n),大大降低了资源浪费。
S902:计算向量空间余弦相似度。
在本步骤中,服务器利用映射的idf向量空间计算新闻标题之间的cosin相似度,大于阈值则相似。
S903:计算标题词Word2vec向量余弦相似度。
模型Word2Vec采用CBOW模式和Skip-Gram模式将词映射到K维向量,CBOW模型如图11所示,采用上下文词向量预侧当前词出现的概率,参数为上下文词向量之和;而Skip-Gram模型如图12所示,则是采用当前词的词向量来预侧上下文出现的概率,参数为当前词的词向量。
本步骤将将新闻标题映射到词的语义向量,按照idf权重和实体词权重对词向量进行加权平均作为最终的标题语义相似度;然后计算新闻标题之间的语义向量之间的cosine相似度,并根据标题长度做相应修正策略。针对较短的标题,这类标题内的分词数量过少,不能准确反映文本内容,因此需要增加一些相似分词,针对较长的标题,这类标题内的分词数量过多,计算量比较大,可以删除一些分词。
S904:根据策略,确定第一相似度值。
在无监督机器学习方法上,上述三种方式都存在部分信息偏差,不能做到完全贴切现有。所以在策略上对上述三种方法进行融合决策表决,表决的结果作为最终的相似度得分。具体的策略已经在上文进行了描述,不再赘述。
将第一相似度值大于TH1的标题对作为相似标题对,将第一相似度值小于TH3的标题对作为不相似标题对。
在进行cosine相似度计算时,对余弦相似度计算采用归一化的形式,假设向量a,b的坐标分别为(x1,y1),(x2,y2),那么:
本步骤对标题向量采用归一化处理,采用新的坐标表示方式,向量a的坐标为向量b的坐标为/>这样,在计算余弦相似度是只需计算对应坐标相乘相加的结果,简化了每一次计算的次数。
S704:使用有监督机器学习模型进行第二次识别。
服务器对于无监督方法没有命中的标题对,命中相应策略的前提下利用有监督机器学习模型的语义编码进行相似度计算,大于阈值则召回。
例如TH1>TH3,TH2>TH3,当TH1>第一相似度值>TH3时,认为满足策略,利用有监督机器学习模型的语义编码进行第二相似度计算。
本实施例利用深度语义匹配模型DSSM的变种LSTM-DSSM与CNN-DSSM得到每个新闻标题的编码向量,通过编码向量来计算余弦相似度。
将深度匹配语义模型DSSM应用到文本相似度的计算上,通过输入(title,pos,neg1,neg2……)的形式来训练模型,其中pos代表与第一个输入title相似的标题,同理neg代表与title不相似的标题。在训练过程中最大化拟合title和pos相似的概率,最小化拟合title和neg之间的相似概率。最终模型将title和pos编码成低纬度的语义向量,并通过cosine距离来计算两个语义向量的距离,最终训练出语义相似度模型。针对DSSM词袋模型丢失上下文信息的缺点,本发明实施例采用CNN-DSSM和LSTM-DSSM模型来训练编码。
模型DSSM的结构示意图如图13所示,其中的虚线部分可以换成Istm单元,Istm单元可以捕获较远距离上下文特征,结构示意图如图14所示。
本步骤利用深度语义匹配模型LSTM-DSSM与CNN-DSSM得到每个新闻标题的编码向量,计算新闻标题间的编码向量cosine相似度。具体的,如图10所示,本步骤包括以下步骤:
S1001:收集训练语料。
本步骤实现训练语料集的自动收集,采用上述无监督机器学习模型投票得到相似和不相似的新闻标题对,同时采用按照事件进行聚类得到的相似和不相似的新闻标题对。融合上述新闻标题对,并清洗语料得到有监督模型的训练语料。
S1002:使用训练语料训练模型。
利用LSTM-DSSM和CNN-DSSM模型,在训练语料上进行训练得到相应的DSSM模型。
S1003:使用训练得到的模型,计算第二相似度值。
服务器将新闻标题送到训练好的模型中,得到新闻标题对应的语义编码,计算标题语义编码之间的cosin相似度,大于阈值则为相似。
例如,将第二相似度值大于TH2的标题对作为相似标题对,将第二相似度值小于TH2的标题对作为不相似标题对。
S705:根据识别结果,确定相似标题对。
服务器将第一相似度值大于TH1的标题对作为相似标题对,将第一相似度值小于TH3的标题对作为不相似标题对,将第二相似度值大于TH2的标题对作为相似标题对,将第二相似度值小于TH2的标题对作为不相似标题对。
在本发明实施例中,在增量和全量数据的计算方式上选取多线程并发计算的形式,在减少计算量的同时进一步加快了计算效率。
本发明相比现有的技术方案,可以更快更准的识别出相似的新闻标题对。利用多种无监督的方式进行融合表决,在保证准确的前提下充分利用了无监督依赖少且计算快速的特性。然后在有监督方式上利用了简单有效的机器学习模型提取了新闻标题的语义特征,解决了无监督方式无法处理的标题对。采用的优化计算方法可以应用于大规模新闻库,提升了算法的实用性。通过对无监督和有监督方式识别出的新闻相似标题对进行抽取评侧,对比现有的相似度识别算法,本发明的整体流程识别效果更加高效和准确,在相似标题对的评侧集合上,算法识别的准确率和召回率都有明显的提升。
相应的,图18是本发明实施例提供的相似文本识别装置的结构示意图,请参阅图18,该相似文本识别装置包括以下模块:
第一获取模块181,用于获取文章的标题,得到标题文本集;
组合模块182,用于对所述标题文本集中的文本进行两两组合,得到文本对;
第二获取模块183,用于使用无监督机器学习模型,获取所述文本对内文本之间的第一相似度值;
第三获取模块184,用于使用训练后有监督机器学习模型,获取所述文本对内文本之间的第二相似度值;
识别模块185,用于根据所述第一相似度值和第二相似度值,从所述文本对中识别出文本相似的相似文本对。
在一实施例中,第三获取模块184可以具体用于:基于所述文本对内文本之间的第一相似度值,对所述标题文本集内的文本进行处理,得到训练语料;使用所述训练语料对有监督机器学习模型进行训练,得到所述训练后有监督机器学习模型。
在一实施例中,第三获取模块184可以具体用于:从所述标题文本集内选择一个文本,标记为目标文本;将包括所述目标文本的文本对,标记为目标文本对;根据所述目标文本对内文本之间的第一相似度值,确定与所述目标文本之间的第一相似度值大于第一相似度阈值的第一文本,以及与所述目标文本之间的第一相似度值小于所述第一相似度阈值的第二文章标题文本;将所述第一文本识别为所述目标文本的相似文本,将所述第二文本识别为所述目标文本的不相似文本;对所述目标文本、所述目标文本的相似文本、以及所述目标文本的不相似文本进行聚类处理,得到所述训练语料。
在一实施例中,第二获取模块183可以具体用于:使用所述主题词相似度模型,得到所述文本对内文本之间的主题词相似度;使用所述空间向量余弦相似度模型,得到所述文本对内文本之间的空间向量余弦相似度;使用所述词向量余弦相似度模型,得到所述文本对内文本之间的词向量余弦相似度;基于所述主题词相似度、向量空间模型余弦相似度以及词向量余弦相似度,得到所述第一相似度值。
在一实施例中,第二获取模块183可以具体用于:根据主题词的主题词标识,对文本中的主题词进行排序;根据排序结果,确定所述文本对内文本之间的相同主题词;根据所述文本对内文本之间的相同主题词个数、以及所述文本对内文本包含的所有主题词个数,得到所述主题词相似度。
在一实施例中,第二获取模块183可以具体用于:获取所述主题词相似度模型、空间向量余弦相似度模型以及词向量余弦相似度模型分别对应的相似文本识别准确率;根据所述相似文本识别准确率,确定所述主题词相似度、空间向量余弦相似度以及词向量余弦相似度分别对应的权重系数;根据所述主题词相似度、向量空间模型余弦相似度以及词向量余弦相似度,以及所述权重系数,得到所述第一相似度值。
在一实施例中,第三获取模块184可以具体用于:在文本对中,筛选得到待召回文本对;所述待召回文本对内文本之间的第一相似度值小于第一相似度阈值;使用所述训练后有监督机器学习模型,计算所述待召回文本对内文本之间的第二相似度值。
在一实施例中,识别模块185可以具体用于通过以下方式中的至少一种实现:方式一、将文本对内文本之间的第一相似度值大于第一相似度阈值的文本对,识别为所述相似文本对;方式二、将文本对内文本之间的第二相似度值大于第二相似度阈值的文本对,识别为相似文本对;方式三、将文本对内文本之间的第一相似度值大于第一相似度阈值、且第二相似度值大于第二相似度阈值的文本对,识别为相似文本对。
在一实施例中,组合模块182可以具体用于:获取文本所包含的分词;将包含相同分词的文本两两组合,以建立文本对;将不包含相同分词的文本,直接识别为不相似文本对。
在一实施例中,组合模块182可以具体用于:从所述标题文本集中选择文本,标记为第一文本;获取所述第一文本中所有分词对应的分词索引;所述分词对应的分词索引包括所述标题文本集中包含相应分词的文本;查找所述分词索引对应的文本,标记为目标文本;从所述目标文本中选择一个作为第二文本,并与所述第一文本组成所述文本对。
在另外一些实施例中,在图18所示的相似文本识别装置中:
第一获取模块181用于获取包括至少两个短文本的短文本集;
组合模块182用于对所述短文本集中的短文本进行两两组合,得到短文本对;
第二获取模块183用于使用无监督机器学习模型,获取所述短文本对内短文本之间的第一短文本相似度值;
第三获取模块184用于使用训练后有监督机器学习模型,获取所述短文本对内短文本之间的第二短文本相似度值;
识别模块185用于根据所述第一短文本相似度值和第二短文本相似度值,从所述短文本对中识别出短文本相似的相似短文本对。
在一实施例中,第三获取模块184可以具体用于:基于所述短文本对内短文本之间的第一短文本相似度值,对所述短文本集的短文本进行处理,得到所述有监督机器学习模型的训练语料;使用所述训练语料对有监督机器学习模型进行训练,得到所述训练后有监督机器学习模型。
在一实施例中,第三获取模块184可以具体用于:从所述短文本集内选择一个短文本,标记为目标短文本;将包括所述目标短文本的短文本对,标记为目标短文本对;根据所述目标短文本对内短文本之间的第一短文本相似度值,确定与所述目标短文本之间的第一短文本相似度值大于第一短文本相似度阈值的第一短文本,以及与所述目标短文本之间的第一短文本相似度值小于所述第一短文本相似度阈值的第二短文本;将所述第一短文本识别为所述目标短文本的相似短文本,将所述第二短文本识别为所述目标短文本的不相似短文本;对所述目标短文本、所述目标短文本的相似短文本、以及所述目标短文本的不相似短文本进行聚类处理,得到所述训练语料。
在一实施例中,第二获取模块183可以具体用于:使用所述主题词相似度模型,得到所述短文本对内短文本之间的主题词短文本相似度;使用所述向量空间余弦相似度模型,得到所述短文本对内短文本之间的向量空间余弦短文本相似度;使用所述词向量余弦相似度模型,得到所述短文本对内短文本之间的词向量余弦短文本相似度;基于所述主题词短文本相似度、向量空间模型余弦短文本相似度以及词向量余弦短文本相似度,得到所述第一短文本相似度值。
在一实施例中,第三获取模块184可以具体用于:在短文本对中,筛选得到待召回短文本对;所述待召回短文本对内短文本之间的第一短文本相似度值小于第一短文本相似度阈值;使用所述训练后有监督机器学习模型,计算所述待召回短文本对内短文本之间的第二短文本相似度值。
在一实施例中,识别模块185可以具体用于通过以下方式中的至少一种实现:方式一、将短文本对内短文本之间的第一短文本相似度值大于第一短文本相似度阈值的短文本对,识别为所述相似短文本对;方式二、将短文本对内短文本之间的第二短文本相似度值大于第二短文本相似度阈值的短文本对,识别为相似短文本对;方式三、将短文本对内短文本之间的第一短文本相似度值大于第一短文本相似度阈值、且第二短文本相似度值大于第二短文本相似度阈值的短文本对,识别为相似短文本对。
在一实施例中,组合模块182可以具体用于:获取短文本所包含的分词;将包含相同分词的短文本两两组合,以建立短文本对;将不包含相同分词的文本,识别为短文本不相似的不相似短文本对。
在一实施例中,组合模块182可以具体用于:从所述短文本集中选择第一短文本;获取所述第一短文本中所有分词对应的分词索引;所述分词对应的分词索引包括所述短文本集中包含相应分词的短文本;查找所述分词索引对应的短文本,标记为第二短文本;从所述第二短文本中选择一个与所述第一短文本组成所述短文本对。
相应的,本发明实施例还提供一种终端,如图19所示,该终端可以包括射频(RF,Radio Frequency)电路1901、包括有一个或一个以上计算机可读存储介质的存储器1902、输入单元1903、显示单元1904、传感器1905、音频电路1906、无线保真(WiFi,WirelessFidelity)模块1907、包括有一个或者一个以上处理核心的处理器1908、以及电源1909等部件。本领域技术人员可以理解,图19中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路1901可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器1908处理;另外,将涉及上行的数据发送给基站。通常,RF电路1901包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM,Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA,Low Noise Amplifier)、双工器等。此外,RF电路1901还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GSM,Global System of Mobile communication)、通用分组无线服务(GPRS,GeneralPacket Radio Service)、码分多址(CDMA,Code Division Multiple Access)、宽带码分多址(WCDMA,Wideband Code Division Multiple Access)、长期演进(LTE,Long TermEvolution)、电子邮件、短消息服务(SMS,Short Messaging Service)等。
存储器1902可用于存储软件程序以及模块,处理器1908通过运行存储在存储器1902的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器1902可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1902可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器1902还可以包括存储器控制器,以提供处理器1908和输入单元1903对存储器1902的访问。
输入单元1903可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元1903可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。在一实施例中,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1908,并能接收处理器1908发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元1903还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1904可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元1904可包括显示面板,在一实施例中,可以采用液晶显示器(LCD,Liquid CrystalDisplay)、有机发光二极管(OLED,Organic Light-Emitting Diode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器1908以确定触摸事件的类型,随后处理器1908根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图19中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。
终端还可包括至少一种传感器1905,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板的亮度,接近传感器可在终端移动到耳边时,关闭显示面板和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1906、扬声器,传声器可提供用户与终端之间的音频接口。音频电路1906可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路1906接收后转换为音频数据,再将音频数据输出处理器1908处理后,经RF电路1901以发送给比如另一终端,或者将音频数据输出至存储器1902以便进一步处理。音频电路1906还可能包括耳塞插孔,以提供外设耳机与终端的通信。
WiFi属于短距离无线传输技术,终端通过WiFi模块1907可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图19示出了WiFi模块1907,但是可以理解的是,其并不属于终端的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1908是终端的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1902内的软件程序和/或模块,以及调用存储在存储器1902内的数据,执行终端的各种功能和处理数据,从而对手机进行整体监控。在一实施例中,处理器1908可包括一个或多个处理核心;优选的,处理器1908可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1908中。
终端还包括给各个部件供电的电源1909(比如电池),优选的,电源可以通过电源管理系统与处理器1908逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1909还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端还可以包括摄像头、蓝牙模块等,在此不再赘述。
具体在本实施例中,终端中的处理器1908会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器1902中,并由处理器1908来运行存储在存储器1902中的应用程序,从而实现各种功能:
获取文章的标题,得到标题文本集;
对所述标题文本集中的文本进行两两组合,得到文本对;
使用无监督机器学习模型,获取所述文本对内文本之间的第一相似度值;
使用训练后有监督机器学习模型,获取所述文本对内文本之间的第二相似度值;
根据所述第一相似度值和第二相似度值,从所述文本对中识别出文本相似的相似文本对。
在一实施例中,实现功能:基于所述文本对内文本之间的第一相似度值,对所述标题文本集内的文本进行处理,得到训练语料;使用所述训练语料对有监督机器学习模型进行训练,得到所述训练后有监督机器学习模型。
在一实施例中,实现功能:从所述标题文本集内选择一个文本,标记为目标文本;将包括所述目标文本的文本对,标记为目标文本对;根据所述目标文本对内文本之间的第一相似度值,确定与所述目标文本之间的第一相似度值大于第一相似度阈值的第一文本,以及与所述目标文本之间的第一相似度值小于所述第一相似度阈值的第二文章标题文本;将所述第一文本识别为所述目标文本的相似文本,将所述第二文本识别为所述目标文本的不相似文本;对所述目标文本、所述目标文本的相似文本、以及所述目标文本的不相似文本进行聚类处理,得到所述训练语料。
在一实施例中,实现功能:使用所述主题词相似度模型,得到所述文本对内文本之间的主题词相似度;使用所述空间向量余弦相似度模型,得到所述文本对内文本之间的空间向量余弦相似度;使用所述词向量余弦相似度模型,得到所述文本对内文本之间的词向量余弦相似度;基于所述主题词相似度、向量空间模型余弦相似度以及词向量余弦相似度,得到所述第一相似度值。
在一实施例中,实现功能:根据主题词的主题词标识,对文本中的主题词进行排序;根据排序结果,确定所述文本对内文本之间的相同主题词;根据所述文本对内文本之间的相同主题词个数、以及所述文本对内文本包含的所有主题词个数,得到所述主题词相似度。
在一实施例中,实现功能:获取所述主题词相似度模型、空间向量余弦相似度模型以及词向量余弦相似度模型分别对应的相似文本识别准确率;根据所述相似文本识别准确率,确定所述主题词相似度、空间向量余弦相似度以及词向量余弦相似度分别对应的权重系数;根据所述主题词相似度、向量空间模型余弦相似度以及词向量余弦相似度,以及所述权重系数,得到所述第一相似度值。
在一实施例中,实现功能:在文本对中,筛选得到待召回文本对;所述待召回文本对内文本之间的第一相似度值小于第一相似度阈值;使用所述训练后有监督机器学习模型,计算所述待召回文本对内文本之间的第二相似度值。
在一实施例中,实现功能:方式一、将文本对内文本之间的第一相似度值大于第一相似度阈值的文本对,识别为所述相似文本对;方式二、将文本对内文本之间的第二相似度值大于第二相似度阈值的文本对,识别为相似文本对;方式三、将文本对内文本之间的第一相似度值大于第一相似度阈值、且第二相似度值大于第二相似度阈值的文本对,识别为相似文本对。
在一实施例中,实现功能:获取文本所包含的分词;将包含相同分词的文本两两组合,以建立文本对;将不包含相同分词的文本,直接识别为不相似文本对。
在一实施例中,实现功能:从所述标题文本集中选择文本,标记为第一文本;获取所述第一文本中所有分词对应的分词索引;所述分词对应的分词索引包括所述标题文本集中包含相应分词的文本;查找所述分词索引对应的文本,标记为目标文本;从所述目标文本中选择一个作为第二文本,并与所述第一文本组成所述文本对。
具体的,在一些实施例中,终端中的处理器1908会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器1902中,并由处理器1908来运行存储在存储器1902中的应用程序,从而实现各种功能:
获取包括至少两个短文本的短文本集;
对所述短文本集中的短文本进行两两组合,得到短文本对;
使用无监督机器学习模型,获取所述短文本对内短文本之间的第一短文本相似度值;
使用训练后有监督机器学习模型,获取所述短文本对内短文本之间的第二短文本相似度值;
根据所述第一短文本相似度值和第二短文本相似度值,从所述短文本对中识别出短文本相似的相似短文本对。
在一实施例中,实现功能:基于所述短文本对内短文本之间的第一短文本相似度值,对所述短文本集的短文本进行处理,得到所述有监督机器学习模型的训练语料;使用所述训练语料对有监督机器学习模型进行训练,得到所述训练后有监督机器学习模型。
在一实施例中,实现功能:从所述短文本集内选择一个短文本,标记为目标短文本;将包括所述目标短文本的短文本对,标记为目标短文本对;根据所述目标短文本对内短文本之间的第一短文本相似度值,确定与所述目标短文本之间的第一短文本相似度值大于第一短文本相似度阈值的第一短文本,以及与所述目标短文本之间的第一短文本相似度值小于所述第一短文本相似度阈值的第二短文本;将所述第一短文本识别为所述目标短文本的相似短文本,将所述第二短文本识别为所述目标短文本的不相似短文本;对所述目标短文本、所述目标短文本的相似短文本、以及所述目标短文本的不相似短文本进行聚类处理,得到所述训练语料。
在一实施例中,实现功能:使用所述主题词相似度模型,得到所述短文本对内短文本之间的主题词短文本相似度;使用所述向量空间余弦相似度模型,得到所述短文本对内短文本之间的向量空间余弦短文本相似度;使用所述词向量余弦相似度模型,得到所述短文本对内短文本之间的词向量余弦短文本相似度;基于所述主题词短文本相似度、向量空间模型余弦短文本相似度以及词向量余弦短文本相似度,得到所述第一短文本相似度值。
在一实施例中,实现功能:在短文本对中,筛选得到待召回短文本对;所述待召回短文本对内短文本之间的第一短文本相似度值小于第一短文本相似度阈值;使用所述训练后有监督机器学习模型,计算所述待召回短文本对内短文本之间的第二短文本相似度值。
在一实施例中,实现功能:方式一、将短文本对内短文本之间的第一短文本相似度值大于第一短文本相似度阈值的短文本对,识别为所述相似短文本对;方式二、将短文本对内短文本之间的第二短文本相似度值大于第二短文本相似度阈值的短文本对,识别为相似短文本对;方式三、将短文本对内短文本之间的第一短文本相似度值大于第一短文本相似度阈值、且第二短文本相似度值大于第二短文本相似度阈值的短文本对,识别为相似短文本对。
在一实施例中,实现功能:获取短文本所包含的分词;将包含相同分词的短文本两两组合,以建立短文本对;将不包含相同分词的文本,识别为短文本不相似的不相似短文本对。
在一实施例中,实现功能:从所述短文本集中选择第一短文本;获取所述第一短文本中所有分词对应的分词索引;所述分词对应的分词索引包括所述短文本集中包含相应分词的短文本;查找所述分词索引对应的短文本,标记为第二短文本;从所述第二短文本中选择一个与所述第一短文本组成所述短文本对。
相应的,本发明实施例还提供一种服务器,如图20所示,其示出了本发明实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器2001、一个或一个以上计算机可读存储介质的存储器2002、电源2003和输入单元2004等部件。本领域技术人员可以理解,图20中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器2001是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器2002内的软件程序和/或模块,以及调用存储在存储器2002内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器2001可包括一个或多个处理核心;优选的,处理器2001可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器2001中。
存储器2002可用于存储软件程序以及模块,处理器2001通过运行存储在存储器2002的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器2002可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器2002可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器2002还可以包括存储器控制器,以提供处理器2001对存储器2002的访问。
服务器还包括给各个部件供电的电源2003,优选的,电源2003可以通过电源管理系统与处理器2001逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源2003还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入单元2004,该输入单元2004可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,服务器还可以包括显示单元等,在此不再赘述。
具体在本实施例中,服务器中的处理器2001会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器2002中,并由处理器2001来运行存储在存储器2002中的应用程序,从而实现各种功能,如下:
获取文章的标题,得到标题文本集;
对所述标题文本集中的文本进行两两组合,得到文本对;
使用无监督机器学习模型,获取所述文本对内文本之间的第一相似度值;
使用训练后有监督机器学习模型,获取所述文本对内文本之间的第二相似度值;
根据所述第一相似度值和第二相似度值,从所述文本对中识别出文本相似的相似文本对。
在一实施例中,实现功能:基于所述文本对内文本之间的第一相似度值,对所述标题文本集内的文本进行处理,得到训练语料;使用所述训练语料对有监督机器学习模型进行训练,得到所述训练后有监督机器学习模型。
在一实施例中,实现功能:从所述标题文本集内选择一个文本,标记为目标文本;将包括所述目标文本的文本对,标记为目标文本对;根据所述目标文本对内文本之间的第一相似度值,确定与所述目标文本之间的第一相似度值大于第一相似度阈值的第一文本,以及与所述目标文本之间的第一相似度值小于所述第一相似度阈值的第二文章标题文本;将所述第一文本识别为所述目标文本的相似文本,将所述第二文本识别为所述目标文本的不相似文本;对所述目标文本、所述目标文本的相似文本、以及所述目标文本的不相似文本进行聚类处理,得到所述训练语料。
在一实施例中,实现功能:使用所述主题词相似度模型,得到所述文本对内文本之间的主题词相似度;使用所述空间向量余弦相似度模型,得到所述文本对内文本之间的空间向量余弦相似度;使用所述词向量余弦相似度模型,得到所述文本对内文本之间的词向量余弦相似度;基于所述主题词相似度、向量空间模型余弦相似度以及词向量余弦相似度,得到所述第一相似度值。
在一实施例中,实现功能:根据主题词的主题词标识,对文本中的主题词进行排序;根据排序结果,确定所述文本对内文本之间的相同主题词;根据所述文本对内文本之间的相同主题词个数、以及所述文本对内文本包含的所有主题词个数,得到所述主题词相似度。
在一实施例中,实现功能:获取所述主题词相似度模型、空间向量余弦相似度模型以及词向量余弦相似度模型分别对应的相似文本识别准确率;根据所述相似文本识别准确率,确定所述主题词相似度、空间向量余弦相似度以及词向量余弦相似度分别对应的权重系数;根据所述主题词相似度、向量空间模型余弦相似度以及词向量余弦相似度,以及所述权重系数,得到所述第一相似度值。
在一实施例中,实现功能:在文本对中,筛选得到待召回文本对;所述待召回文本对内文本之间的第一相似度值小于第一相似度阈值;使用所述训练后有监督机器学习模型,计算所述待召回文本对内文本之间的第二相似度值。
在一实施例中,实现功能:方式一、将文本对内文本之间的第一相似度值大于第一相似度阈值的文本对,识别为所述相似文本对;方式二、将文本对内文本之间的第二相似度值大于第二相似度阈值的文本对,识别为相似文本对;方式三、将文本对内文本之间的第一相似度值大于第一相似度阈值、且第二相似度值大于第二相似度阈值的文本对,识别为相似文本对。
在一实施例中,实现功能:获取文本所包含的分词;将包含相同分词的文本两两组合,以建立文本对;将不包含相同分词的文本,直接识别为不相似文本对。
在一实施例中,实现功能:从所述标题文本集中选择文本,标记为第一文本;获取所述第一文本中所有分词对应的分词索引;所述分词对应的分词索引包括所述标题文本集中包含相应分词的文本;查找所述分词索引对应的文本,标记为目标文本;从所述目标文本中选择一个作为第二文本,并与所述第一文本组成所述文本对。
具体的,在一些实施例中,服务器中的处理器2001会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器2002中,并由处理器2001来运行存储在存储器2002中的应用程序,从而实现各种功能,如下:
获取包括至少两个短文本的短文本集;
对所述短文本集中的短文本进行两两组合,得到短文本对;
使用无监督机器学习模型,获取所述短文本对内短文本之间的第一短文本相似度值;
使用训练后有监督机器学习模型,获取所述短文本对内短文本之间的第二短文本相似度值;
根据所述第一短文本相似度值和第二短文本相似度值,从所述短文本对中识别出短文本相似的相似短文本对。
在一实施例中,实现功能:基于所述短文本对内短文本之间的第一短文本相似度值,对所述短文本集的短文本进行处理,得到所述有监督机器学习模型的训练语料;使用所述训练语料对有监督机器学习模型进行训练,得到所述训练后有监督机器学习模型。
在一实施例中,实现功能:从所述短文本集内选择一个短文本,标记为目标短文本;将包括所述目标短文本的短文本对,标记为目标短文本对;根据所述目标短文本对内短文本之间的第一短文本相似度值,确定与所述目标短文本之间的第一短文本相似度值大于第一短文本相似度阈值的第一短文本,以及与所述目标短文本之间的第一短文本相似度值小于所述第一短文本相似度阈值的第二短文本;将所述第一短文本识别为所述目标短文本的相似短文本,将所述第二短文本识别为所述目标短文本的不相似短文本;对所述目标短文本、所述目标短文本的相似短文本、以及所述目标短文本的不相似短文本进行聚类处理,得到所述训练语料。
在一实施例中,实现功能:使用所述主题词相似度模型,得到所述短文本对内短文本之间的主题词短文本相似度;使用所述向量空间余弦相似度模型,得到所述短文本对内短文本之间的向量空间余弦短文本相似度;使用所述词向量余弦相似度模型,得到所述短文本对内短文本之间的词向量余弦短文本相似度;基于所述主题词短文本相似度、向量空间模型余弦短文本相似度以及词向量余弦短文本相似度,得到所述第一短文本相似度值。
在一实施例中,实现功能:在短文本对中,筛选得到待召回短文本对;所述待召回短文本对内短文本之间的第一短文本相似度值小于第一短文本相似度阈值;使用所述训练后有监督机器学习模型,计算所述待召回短文本对内短文本之间的第二短文本相似度值。
在一实施例中,实现功能:方式一、将短文本对内短文本之间的第一短文本相似度值大于第一短文本相似度阈值的短文本对,识别为所述相似短文本对;方式二、将短文本对内短文本之间的第二短文本相似度值大于第二短文本相似度阈值的短文本对,识别为相似短文本对;方式三、将短文本对内短文本之间的第一短文本相似度值大于第一短文本相似度阈值、且第二短文本相似度值大于第二短文本相似度阈值的短文本对,识别为相似短文本对。
在一实施例中,实现功能:获取短文本所包含的分词;将包含相同分词的短文本两两组合,以建立短文本对;将不包含相同分词的文本,识别为短文本不相似的不相似短文本对。
在一实施例中,实现功能:从所述短文本集中选择第一短文本;获取所述第一短文本中所有分词对应的分词索引;所述分词对应的分词索引包括所述短文本集中包含相应分词的短文本;查找所述分词索引对应的短文本,标记为第二短文本;从所述第二短文本中选择一个与所述第一短文本组成所述短文本对。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对资源管理方法的详细描述,此处不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种方法中的步骤。例如,该指令可以执行如下步骤:
获取文章的标题,得到标题文本集;
对所述标题文本集中的文本进行两两组合,得到文本对;
使用无监督机器学习模型,获取所述文本对内文本之间的第一相似度值;
使用训练后有监督机器学习模型,获取所述文本对内文本之间的第二相似度值;
根据所述第一相似度值和第二相似度值,从所述文本对中识别出文本相似的相似文本对。
在一实施例中,实现功能:基于所述文本对内文本之间的第一相似度值,对所述标题文本集内的文本进行处理,得到训练语料;使用所述训练语料对有监督机器学习模型进行训练,得到所述训练后有监督机器学习模型。
在一实施例中,实现功能:从所述标题文本集内选择一个文本,标记为目标文本;将包括所述目标文本的文本对,标记为目标文本对;根据所述目标文本对内文本之间的第一相似度值,确定与所述目标文本之间的第一相似度值大于第一相似度阈值的第一文本,以及与所述目标文本之间的第一相似度值小于所述第一相似度阈值的第二文章标题文本;将所述第一文本识别为所述目标文本的相似文本,将所述第二文本识别为所述目标文本的不相似文本;对所述目标文本、所述目标文本的相似文本、以及所述目标文本的不相似文本进行聚类处理,得到所述训练语料。
在一实施例中,实现功能:使用所述主题词相似度模型,得到所述文本对内文本之间的主题词相似度;使用所述空间向量余弦相似度模型,得到所述文本对内文本之间的空间向量余弦相似度;使用所述词向量余弦相似度模型,得到所述文本对内文本之间的词向量余弦相似度;基于所述主题词相似度、向量空间模型余弦相似度以及词向量余弦相似度,得到所述第一相似度值。
在一实施例中,实现功能:根据主题词的主题词标识,对文本中的主题词进行排序;根据排序结果,确定所述文本对内文本之间的相同主题词;根据所述文本对内文本之间的相同主题词个数、以及所述文本对内文本包含的所有主题词个数,得到所述主题词相似度。
在一实施例中,实现功能:获取所述主题词相似度模型、空间向量余弦相似度模型以及词向量余弦相似度模型分别对应的相似文本识别准确率;根据所述相似文本识别准确率,确定所述主题词相似度、空间向量余弦相似度以及词向量余弦相似度分别对应的权重系数;根据所述主题词相似度、向量空间模型余弦相似度以及词向量余弦相似度,以及所述权重系数,得到所述第一相似度值。
在一实施例中,实现功能:在文本对中,筛选得到待召回文本对;所述待召回文本对内文本之间的第一相似度值小于第一相似度阈值;使用所述训练后有监督机器学习模型,计算所述待召回文本对内文本之间的第二相似度值。
在一实施例中,实现功能:方式一、将文本对内文本之间的第一相似度值大于第一相似度阈值的文本对,识别为所述相似文本对;方式二、将文本对内文本之间的第二相似度值大于第二相似度阈值的文本对,识别为相似文本对;方式三、将文本对内文本之间的第一相似度值大于第一相似度阈值、且第二相似度值大于第二相似度阈值的文本对,识别为相似文本对。
在一实施例中,实现功能:获取文本所包含的分词;将包含相同分词的文本两两组合,以建立文本对;将不包含相同分词的文本,直接识别为不相似文本对。
在一实施例中,实现功能:从所述标题文本集中选择文本,标记为第一文本;获取所述第一文本中所有分词对应的分词索引;所述分词对应的分词索引包括所述标题文本集中包含相应分词的文本;查找所述分词索引对应的文本,标记为目标文本;从所述目标文本中选择一个作为第二文本,并与所述第一文本组成所述文本对。
具体的,在一些实施例中,本发明实施例提供一种存储介质存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种方法中的步骤。例如,该指令可以执行如下步骤:
获取包括至少两个短文本的短文本集;
对所述短文本集中的短文本进行两两组合,得到短文本对;
使用无监督机器学习模型,获取所述短文本对内短文本之间的第一短文本相似度值;
使用训练后有监督机器学习模型,获取所述短文本对内短文本之间的第二短文本相似度值;
根据所述第一短文本相似度值和第二短文本相似度值,从所述短文本对中识别出短文本相似的相似短文本对。
在一实施例中,实现功能:基于所述短文本对内短文本之间的第一短文本相似度值,对所述短文本集的短文本进行处理,得到所述有监督机器学习模型的训练语料;使用所述训练语料对有监督机器学习模型进行训练,得到所述训练后有监督机器学习模型。
在一实施例中,实现功能:从所述短文本集内选择一个短文本,标记为目标短文本;将包括所述目标短文本的短文本对,标记为目标短文本对;根据所述目标短文本对内短文本之间的第一短文本相似度值,确定与所述目标短文本之间的第一短文本相似度值大于第一短文本相似度阈值的第一短文本,以及与所述目标短文本之间的第一短文本相似度值小于所述第一短文本相似度阈值的第二短文本;将所述第一短文本识别为所述目标短文本的相似短文本,将所述第二短文本识别为所述目标短文本的不相似短文本;对所述目标短文本、所述目标短文本的相似短文本、以及所述目标短文本的不相似短文本进行聚类处理,得到所述训练语料。
在一实施例中,实现功能:使用所述主题词相似度模型,得到所述短文本对内短文本之间的主题词短文本相似度;使用所述向量空间余弦相似度模型,得到所述短文本对内短文本之间的向量空间余弦短文本相似度;使用所述词向量余弦相似度模型,得到所述短文本对内短文本之间的词向量余弦短文本相似度;基于所述主题词短文本相似度、向量空间模型余弦短文本相似度以及词向量余弦短文本相似度,得到所述第一短文本相似度值。
在一实施例中,实现功能:在短文本对中,筛选得到待召回短文本对;所述待召回短文本对内短文本之间的第一短文本相似度值小于第一短文本相似度阈值;使用所述训练后有监督机器学习模型,计算所述待召回短文本对内短文本之间的第二短文本相似度值。
在一实施例中,实现功能:方式一、将短文本对内短文本之间的第一短文本相似度值大于第一短文本相似度阈值的短文本对,识别为所述相似短文本对;方式二、将短文本对内短文本之间的第二短文本相似度值大于第二短文本相似度阈值的短文本对,识别为相似短文本对;方式三、将短文本对内短文本之间的第一短文本相似度值大于第一短文本相似度阈值、且第二短文本相似度值大于第二短文本相似度阈值的短文本对,识别为相似短文本对。
在一实施例中,实现功能:获取短文本所包含的分词;将包含相同分词的短文本两两组合,以建立短文本对;将不包含相同分词的文本,识别为短文本不相似的不相似短文本对。
在一实施例中,实现功能:从所述短文本集中选择第一短文本;获取所述第一短文本中所有分词对应的分词索引;所述分词对应的分词索引包括所述短文本集中包含相应分词的短文本;查找所述分词索引对应的短文本,标记为第二短文本;从所述第二短文本中选择一个与所述第一短文本组成所述短文本对。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种方法中的步骤,因此,可以实现本发明实施例所提供的任一种方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种相似文本识别方法、装置、服务器及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (13)
1.一种相似文本识别方法,其特征在于,包括:
获取文章的标题,得到标题文本集,所述标题文本集中的每个标题作为一个文本;
对所述标题文本集中的文本进行两两组合,得到文本对,其中,获取文本所包含的分词;将包含相同分词的文本两两组合,以建立文本对;将不包含相同分词的文本,识别为文本不相似的不相似文本对,其中,文本是由字段组成的,相邻字段组成分词;
使用无监督机器学习模型,获取所述文本对内文本之间的第一相似度值,其中,所述无监督机器学习模型包括主题词相似度模型、空间向量余弦相似度模型以及词向量余弦相似度模型,其中,所述主题词相似度模型为主题词Jaccard相似度模型;所述使用无监督机器学习模型,获取所述文本对内文本之间的第一相似度值的步骤,包括:使用所述主题词相似度模型,得到所述文本对内文本之间的主题词相似度;使用所述空间向量余弦相似度模型,得到所述文本对内文本之间的空间向量余弦相似度;使用所述词向量余弦相似度模型,得到所述文本对内文本之间的词向量余弦相似度;基于所述主题词相似度、向量空间模型余弦相似度以及词向量余弦相似度,得到所述第一相似度值;
使用训练后有监督机器学习模型,获取所述文本对内文本之间的第二相似度值;
根据所述第一相似度值和第二相似度值,从所述文本对中识别出文本相似的相似文本对;
其中,所述使用训练后有监督机器学习模型,获取所述文本对内文本之间的第二相似度值的步骤包括:
在文本对中,筛选得到待召回文本对;所述待召回文本对内文本之间的第一相似度值小于第一相似度阈值;
使用所述训练后有监督机器学习模型,计算所述待召回文本对内文本之间的第二相似度值。
2.根据权利要求1所述的方法,其特征在于,在所述使用训练后有监督机器学习模型,获取所述文本对内文本之间的第二相似度值的步骤之前,还包括:
基于所述文本对内文本之间的第一相似度值,对所述标题文本集内的文本进行处理,得到训练语料;
使用所述训练语料对有监督机器学习模型进行训练,得到所述训练后有监督机器学习模型。
3.根据权利要求2所述的方法,其特征在于,所述基于所述文本对内文本之间的第一相似度值,对所述标题文本集内的文本进行处理,得到训练语料的步骤,包括:
从所述标题文本集内选择一个文本,标记为目标文本;
将包括所述目标文本的文本对,标记为目标文本对;
根据所述目标文本对内文本之间的第一相似度值,确定与所述目标文本之间的第一相似度值大于第一相似度阈值的第一文本,以及与所述目标文本之间的第一相似度值小于所述第一相似度阈值的第二文本;
将所述第一文本识别为所述目标文本的相似文本,将所述第二文本识别为所述目标文本的不相似文本;
对所述目标文本、所述目标文本的相似文本、以及所述目标文本的不相似文本进行聚类处理,得到所述训练语料。
4.根据权利要求3所述的方法,其特征在于,所述使用所述主题词相似度模型,得到所述文本对内文本之间的主题词相似度的步骤,包括:
根据主题词的主题词标识,对文本中的主题词进行排序;
根据排序结果,确定所述文本对内文本之间的相同主题词;
根据所述文本对内文本之间的相同主题词个数、以及所述文本对内文本包含的所有主题词个数,得到所述主题词相似度。
5.根据权利要求3所述的方法,其特征在于,所述基于所述主题词相似度、向量空间模型余弦相似度以及词向量余弦相似度,得到所述第一相似度值的步骤,包括:
获取所述主题词相似度模型、空间向量余弦相似度模型以及词向量余弦相似度模型分别对应的相似文本识别准确率;
根据所述相似文本识别准确率,确定所述主题词相似度、空间向量余弦相似度以及词向量余弦相似度分别对应的权重系数;
根据所述主题词相似度、向量空间模型余弦相似度以及词向量余弦相似度,以及所述权重系数,得到所述第一相似度值。
6.根据权利要求1所述的方法,其特征在于,所述根据所述第一相似度值和第二相似度值,从所述文本对中识别出文本相似的相似文本对的步骤通过以下方式中的至少一种实现:
方式一、将文本对内文本之间的第一相似度值大于第一相似度阈值的文本对,识别为所述相似文本对;
方式二、将文本对内文本之间的第二相似度值大于第二相似度阈值的文本对,识别为相似文本对;
方式三、将文本对内文本之间的第一相似度值大于第一相似度阈值、且第二相似度值大于第二相似度阈值的文本对,识别为相似文本对。
7.根据权利要求6所述的方法,其特征在于,所述将包含相同分词的文本两两组合,以建立文本对的步骤包括:
从所述标题文本集中选择文本,标记为第一文本;
获取所述第一文本中所有分词对应的分词索引;所述分词对应的分词索引用于确定所述标题文本集中包含相应分词的文本;
查找所述分词索引对应的文本,标记为目标文本;
从所述目标文本中选择一个作为第二文本,并与所述第一文本组成所述文本对。
8.一种相似文本识别方法,其特征在于,包括:
获取包括至少两个短文本的短文本集;
对所述短文本集中的短文本进行两两组合,得到短文本对,其中,获取短文本所包含的分词;将包含相同分词的短文本两两组合,以建立短文本对;将不包含相同分词的文本,识别为短文本不相似的不相似短文本对,其中,文本是由字段组成的,相邻字段组成分词;
使用无监督机器学习模型,获取所述短文本对内短文本之间的第一短文本相似度值,其中,所述无监督机器学习模型包括主题词相似度模型、空间向量余弦相似度模型以及词向量余弦相似度模型,其中,所述主题词相似度模型为主题词Jaccard相似度模型;所述使用无监督机器学习模型,获取所述文本对内文本之间的第一相似度值的步骤,包括:使用所述主题词相似度模型,得到所述文本对内文本之间的主题词相似度;使用所述空间向量余弦相似度模型,得到所述文本对内文本之间的空间向量余弦相似度;使用所述词向量余弦相似度模型,得到所述文本对内文本之间的词向量余弦相似度;基于所述主题词相似度、向量空间模型余弦相似度以及词向量余弦相似度,得到所述第一相似度值;
使用训练后有监督机器学习模型,获取所述短文本对内短文本之间的第二短文本相似度值;
根据所述第一短文本相似度值和第二短文本相似度值,从所述短文本对中识别出短文本相似的相似短文本对;
其中,使用训练后有监督机器学习模型,获取所述短文本对内短文本之间的第二短文本相似度值的步骤,包括:
在短文本对中,筛选得到待召回短文本对;所述待召回短文本对内文本之间的第一短文本相似度值小于第一短文本相似度阈值;
使用所述训练后有监督机器学习模型,计算所述待召回短文本对内文本之间的第二短文本相似度值。
9.根据权利要求8所述的方法,其特征在于,在所述使用训练后有监督机器学习模型,获取所述短文本对内短文本之间的第二短文本相似度值的步骤之前,还包括:
基于所述短文本对内短文本之间的第一短文本相似度值,对所述短文本集的短文本进行处理,得到所述有监督机器学习模型的训练语料;
使用所述训练语料对有监督机器学习模型进行训练,得到所述训练后有监督机器学习模型。
10.根据权利要求8所述的方法,其特征在于,所述根据所述第一短文本相似度值和第二短文本相似度值,从所述短文本对中识别出短文本相似的相似短文本对的步骤通过以下方式中的至少一种实现:
方式一、将短文本对内短文本之间的第一短文本相似度值大于第一短文本相似度阈值的短文本对,识别为所述相似短文本对;
方式二、将短文本对内短文本之间的第二短文本相似度值大于第二短文本相似度阈值的短文本对,识别为相似短文本对;
方式三、将短文本对内短文本之间的第一短文本相似度值大于第一短文本相似度阈值、且第二短文本相似度值大于第二短文本相似度阈值的短文本对,识别为相似短文本对。
11.一种相似文本识别装置,其特征在于,包括:
第一获取模块,用于获取文章的标题,得到标题文本集,所述标题文本集中的每个标题作为一个文本;
组合模块,用于对所述标题文本集中的文本进行两两组合,得到文本对,其中,获取文本所包含的分词;将包含相同分词的文本两两组合,以建立文本对;将不包含相同分词的文本,识别为文本不相似的不相似文本对,其中,文本是由字段组成的,相邻字段组成分词;
第二获取模块,用于使用无监督机器学习模型,获取所述文本对内文本之间的第一相似度值,其中,所述无监督机器学习模型包括主题词相似度模型、空间向量余弦相似度模型以及词向量余弦相似度模型,其中,所述主题词相似度模型为主题词Jaccard相似度模型;所述使用无监督机器学习模型,获取所述文本对内文本之间的第一相似度值的步骤,包括:使用所述主题词相似度模型,得到所述文本对内文本之间的主题词相似度;使用所述空间向量余弦相似度模型,得到所述文本对内文本之间的空间向量余弦相似度;使用所述词向量余弦相似度模型,得到所述文本对内文本之间的词向量余弦相似度;基于所述主题词相似度、向量空间模型余弦相似度以及词向量余弦相似度,得到所述第一相似度值;
第三获取模块,用于在文本对中,筛选得到待召回文本对;所述待召回文本对内文本之间的第一相似度值小于第一相似度阈值;使用训练后有监督机器学习模型,计算所述待召回文本对内文本之间的第二相似度值;
识别模块,用于根据所述第一相似度值和第二相似度值,从所述文本对中识别出文本相似的相似文本对。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,指令适于处理器进行加载,以执行上述权利要求1至10任一项所述方法中的步骤。
13.一种计算机设备,其特征在于,包括处理器和存储器,存储器存储有应用程序,所述应用程序适于处理器进行加载,以执行根据权利要求1至10任一项所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811050014.9A CN110209810B (zh) | 2018-09-10 | 2018-09-10 | 相似文本识别方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811050014.9A CN110209810B (zh) | 2018-09-10 | 2018-09-10 | 相似文本识别方法以及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110209810A CN110209810A (zh) | 2019-09-06 |
CN110209810B true CN110209810B (zh) | 2023-10-31 |
Family
ID=67779896
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811050014.9A Active CN110209810B (zh) | 2018-09-10 | 2018-09-10 | 相似文本识别方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110209810B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110807086B (zh) * | 2019-10-08 | 2024-02-06 | 腾讯科技(深圳)有限公司 | 文本数据标注方法及装置、存储介质、电子设备 |
CN111078849B (zh) * | 2019-12-02 | 2023-07-25 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN111104794B (zh) * | 2019-12-25 | 2023-07-04 | 同方知网数字出版技术股份有限公司 | 一种基于主题词的文本相似度匹配方法 |
CN111291155A (zh) * | 2020-01-17 | 2020-06-16 | 青梧桐有限责任公司 | 基于文本相似度的同名小区辨别方法及系统 |
CN113763061B (zh) * | 2020-06-03 | 2024-07-19 | 北京沃东天骏信息技术有限公司 | 相似物品聚合的方法和装置 |
CN113434649A (zh) * | 2021-06-25 | 2021-09-24 | 平安国际智慧城市科技股份有限公司 | 基于政策faq数据库的问题匹配方法、装置、设备及介质 |
CN115357691B (zh) * | 2022-10-21 | 2023-04-07 | 成都数之联科技股份有限公司 | 一种语义检索方法及系统、设备和计算机可读存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5936698B2 (ja) * | 2012-08-27 | 2016-06-22 | 株式会社日立製作所 | 単語意味関係抽出装置 |
CN104391828B (zh) * | 2014-11-11 | 2017-11-17 | 百度在线网络技术(北京)有限公司 | 确定短文本相似度的方法和装置 |
CN106844328B (zh) * | 2016-08-23 | 2020-04-21 | 华南师范大学 | 一种大规模文档主题语义分析方法及系统 |
CN106649853A (zh) * | 2016-12-30 | 2017-05-10 | 儒安科技有限公司 | 一种基于深度学习的短文本聚类方法 |
-
2018
- 2018-09-10 CN CN201811050014.9A patent/CN110209810B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110209810A (zh) | 2019-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110209810B (zh) | 相似文本识别方法以及装置 | |
CN109241431B (zh) | 一种资源推荐方法和装置 | |
CN110598046B (zh) | 一种基于人工智能的标题党识别方法和相关装置 | |
CN108280458B (zh) | 群体关系类型识别方法及装置 | |
CN106357517B (zh) | 定向标签生成方法及装置 | |
CN108280115B (zh) | 识别用户关系的方法及装置 | |
CN113536793A (zh) | 一种实体识别方法、装置、设备以及存储介质 | |
CN109918669B (zh) | 实体确定方法、装置及存储介质 | |
CN109783798A (zh) | 文本信息添加图片的方法、装置、终端及存储介质 | |
CN111914113B (zh) | 一种图像检索的方法以及相关装置 | |
CN104239535A (zh) | 一种为文字配图的方法、服务器、终端及系统 | |
CN112104642B (zh) | 一种异常账号确定方法和相关装置 | |
CN114722937B (zh) | 一种异常数据检测方法、装置、电子设备和存储介质 | |
CN112995757B (zh) | 视频剪裁方法及装置 | |
CN114357278B (zh) | 一种话题推荐方法、装置及设备 | |
CN112685578B (zh) | 一种多媒体信息内容提供方法及装置 | |
CN111738000B (zh) | 一种短语推荐的方法以及相关装置 | |
CN107562917B (zh) | 用户推荐方法及装置 | |
CN111553163A (zh) | 文本相关度的确定方法、装置、存储介质及电子设备 | |
CN106131296A (zh) | 信息展示方法及装置 | |
CN115080840A (zh) | 一种内容推送方法、装置及存储介质 | |
CN112270238A (zh) | 一种视频内容识别方法和相关装置 | |
CN110929882A (zh) | 一种基于人工智能的特征向量计算方法和相关装置 | |
CN116453005A (zh) | 一种视频封面的提取方法以及相关装置 | |
CN114969493A (zh) | 一种内容推荐方法和相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |