CN110334324A - 一种基于自然语言处理的文档相似度识别方法及相关设备 - Google Patents

一种基于自然语言处理的文档相似度识别方法及相关设备 Download PDF

Info

Publication number
CN110334324A
CN110334324A CN201910529190.9A CN201910529190A CN110334324A CN 110334324 A CN110334324 A CN 110334324A CN 201910529190 A CN201910529190 A CN 201910529190A CN 110334324 A CN110334324 A CN 110334324A
Authority
CN
China
Prior art keywords
document
language element
word
language
multiple words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910529190.9A
Other languages
English (en)
Inventor
王小鹏
苏宇
沈越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Puhui Enterprise Management Co Ltd
Original Assignee
Ping An Puhui Enterprise Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Puhui Enterprise Management Co Ltd filed Critical Ping An Puhui Enterprise Management Co Ltd
Priority to CN201910529190.9A priority Critical patent/CN110334324A/zh
Publication of CN110334324A publication Critical patent/CN110334324A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种基于自然语言处理的文档相似度识别方法及相关设备,其特征在于,包括:分别以字和词为单位对第一文档进行拆分以获得第一文档包含的多个字和多个词;通过TF‑IDF算法计算第一语言元素库中每一个语言元素的TF‑IDF值,其中,第一语言元素库为根据第一文档包含的多个字和第一文档包含的多个词获得;同理计算第二文档对应的第二语言元素库中每一个语言元素的TF‑IDF值;在根据第一语言元素库中每一个语言元素的TF‑IDF值和第二语言元素库中每一个语言元素的TF‑IDF值确定第一文档与第二文档的相似度。采用本发明实施例,能够更准确地得出第一文档与第二文档之间的相似度关系。

Description

一种基于自然语言处理的文档相似度识别方法及相关设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于自然语言处理的文档相似度识别方法及相关设备。
背景技术
目前很多招聘都存在笔试环节,一直以来笔试环节作弊的行为屡见不鲜,目前很多企业都是通过人工筛查比对的方式甄别作弊行为,然而针对应聘数量较少的情况可以人工甄别,针对应聘数量较多的情况则无法人工甄别。随着人工智能的发展,已经有一些企业尝试通过计算机识别作弊行为,目前计算机识别的原理是直接将两个文档进行对比,如果两个文档的内容一样则存在作弊,如果不一样则不存在作弊,针对这种确定作弊的方式,作弊者是很容易避免被发现的,例如,作弊者对答案稍作关键词改动,如同义词替换;再如,作弊者对文档的语句顺序稍作改动,等等。关键词改动和句子顺序调整之后,计算机就不认为存在作弊行为,而实际作弊是客观存在的。如何通过计算机更精准高效地甄别作弊行为是本领域的技术人员正在研究的技术问题。
发明内容
本发明实施例公开了一种基于自然语言处理的文档相似度识别方法及相关设备,能够更准确地获知文档之间的相似度关系。
第一方面,本发明实施例提供了一种基于自然语言处理的文档相似度识别方法,该方法包括:
以字为单位对第一文档进行拆分以获得所述第一文档包含的多个字;
以词为单位对所述第一文档进行拆分以获得所述第一文档包含的多个词;
通过TF-IDF算法计算第一语言元素库中每一个语言元素的TF-IDF值,其中,所述第一语言元素库为根据所述第一文档包含的多个字和所述第一文档包含的多个词获得;
以字为单位对第二文档进行拆分以获得所述第二文档包含的多个字;
以词为单位对所述第二文档进行拆分以获得所述第二文档包含的多个词;
通过所述TF-IDF算法计算第二语言元素库中每一个语言元素的TF-IDF值,其中,所述第二语言元素库为根据所述第二文档包含的多个字和所述第二文档包含的多个词获得;
根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度。
通过执行上述方法,将第一文档和第二文档都进行了字级别的拆分,因此保留了这两个文档最基础的原始信息,能够对冲词级别拆分时出现的误差,例如,对“不需要购买社保”进行拆分时,有些分词算法会拆出“需要”、“购买”、“社保”,而实际上这种拆分结果已经偏离了句子的原意。也即是说,本申请采用字级别拆分和词级别拆分进行组合的方式,让拆分后的词充分表达语义,让拆分后的字对冲语义误差,因此拆分得到的语义元素能够更准确地反映文档的语义,因此在此基础上确定出的第一文档和第二文档的相似度结果更准确。
结合第一方面,在第一方面的第一种可能的实现方式中,所述根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度,包括:
根据所述第一语言元素库中每一个语言元素的TF-IDF值确定第一词向量;
根据所述第二语言元素库中每一个语言元素的TF-IDF值确定第二词向量;
计算所述第一词向量与所述第二词向量的余弦值,其中,所述第一文档与所述第二文档的相似度与所述余弦值的大小呈正相关。
结合第一方面,或者第一方面的上述任一可能的实现方式,在第一方面的第二种可能的实现方式中,所述计算所述第一词向量与所述第二词向量的余弦值之后,还包括:
若所述余弦值大于预设阈值,则确定存在作弊行为。
结合第一方面,或者第一方面的上述任一可能的实现方式,在第一方面的第三种可能的实现方式中:
所述第一语言元素库不包含所述第一文档的多个字中的预设字,且不包含所述第一文档的多个词中的预设词;
所述第二语言元素库不包含所述第二文档的多个字中的预设字,且不包含所述第二文档的多个词中的预设词。
结合第一方面,或者第一方面的上述任一可能的实现方式,在第一方面的第四种可能的实现方式中,所述根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度之前,还包括:
对所述第一语言元素库和所述第二语言元素库进行同义词替换,并将替换前的语言元素的TF-IDF值赋予替换后的语言元素,以实现对所述第一语言元素库和所述第二语言元素库的更新,其中,同义词替换用于将同样含义的语言元素进行统一描述。
第二方面,本申请实施例提供一种基于自然语言处理的文档相似度识别设备,该设备包括:
第一拆分单元,用于以字为单位对第一文档进行拆分以获得所述第一文档包含的多个字;
第二拆分单元,用于以词为单位对所述第一文档进行拆分以获得所述第一文档包含的多个词;
第一计算单元,用于通过TF-IDF算法计算第一语言元素库中每一个语言元素的TF-IDF值,其中,所述第一语言元素库为根据所述第一文档包含的多个字和所述第一文档包含的多个词获得;
第三拆分单元,用于以字为单位对第二文档进行拆分以获得所述第二文档包含的多个字;
第四拆分单元,用于以词为单位对所述第二文档进行拆分以获得所述第二文档包含的多个词;
第二计算单元,用于通过所述TF-IDF算法计算第二语言元素库中每一个语言元素的TF-IDF值,其中,所述第二语言元素库为根据所述第二文档包含的多个字和所述第二文档包含的多个词获得;
对比单元,用于根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度。
通过运行上述单元,将第一文档和第二文档都进行了字级别的拆分,因此保留了这两个文档最基础的原始信息,能够对冲词级别拆分时出现的误差,例如,对“不需要购买社保”进行拆分时,有些分词算法会拆出“需要”、“购买”、“社保”,而实际上这种拆分结果已经偏离了句子的原意。也即是说,本申请采用字级别拆分和词级别拆分进行组合的方式,让拆分后的词充分表达语义,让拆分后的字对冲语义误差,因此拆分得到的语义元素能够更准确地反映文档的语义,因此在此基础上确定出的第一文档和第二文档的相似度结果更准确。
结合第二方面,在第二方面的第一种可能的实现方式中,所述对比单元,用于根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度,具体为:
根据所述第一语言元素库中每一个语言元素的TF-IDF值确定第一词向量;
根据所述第二语言元素库中每一个语言元素的TF-IDF值确定第二词向量;
计算所述第一词向量与所述第二词向量的余弦值,其中,所述第一文档与所述第二文档的相似度与所述余弦值的大小呈正相关。
结合第二方面,或者第二方面的上述任一可能的实现方式,在第二方面的第二种可能的实现方式中,所述对比单元,还用于在计算所述第一词向量与所述第二词向量的余弦值之后,若所述余弦值大于预设阈值,则确定存在作弊行为。
结合第二方面,或者第二方面的上述任一可能的实现方式,在第二方面的第三种可能的实现方式中:
所述第一语言元素库不包含所述第一文档的多个字中的预设字,且不包含所述第一文档的多个词中的预设词;
所述第二语言元素库不包含所述第二文档的多个字中的预设字,且不包含所述第二文档的多个词中的预设词。
结合第二方面,或者第二方面的上述任一可能的实现方式,在第二方面的第四种可能的实现方式中,替换单元,用于在所述对比单元根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度之前,对所述第一语言元素库和所述第二语言元素库进行同义词替换,并将替换前的语言元素的TF-IDF值赋予替换后的语言元素,以实现对所述第一语言元素库和所述第二语言元素库的更新,其中,同义词替换用于将同样含义的语言元素进行统一描述。
第三方面,本申请实施例提供一种设备,所述设备包括处理器、存储器,其中,所述存储器用于存储指令,当所述指令在处理器上运行时,实现第一方面,或者第一方面的任一可能的实现方式所描述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在处理器上运行时,实现第一方面,或者第一方面的任一可能的实现方式所描述的方法。
第五方面,本申请实施例提供一种计算机程序产品,当所述计算机程序产品在处理器上运行时,实现第一方面,或者第一方面的任一可能的实现方式所描述的方法。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对本发明实施例或背景技术中所需要使用的附图作简单地介绍。
图1是本发明实施例提供的一种基于自然语言处理的文档相似度识别方法的流程示意图;
图2是本发明实施例提供的一种设备的结构示意图;
图3是本发明实施例提供的又一种设备的结构示意图。
具体实施方式
下面将结合附图对本发明实施例中的技术方案进行描述。
本申请实施例主要是基于词频-逆文档频率(term frequency–inverse documentfrequency,TF-IDF)技术来对不同文档的相似度进行识别,这种技术可以应用在很多涉及文字内容对比的领域,例如,招聘过程中对比不同应聘者的答卷,从而判断是否存在应聘作弊行为;各行各业的考试中对比不同考生的答卷,从而判断是否存在考试作弊行为;信息检索等。
在对比文档相似度的过程中,通常涉及将两个文档(例如,两个应聘者各自的答卷、一个应聘者的答卷与标准答案等)进行比较,后面称这两个文档为第一文档和第二文档以方便描述。
请参见图1,图1是本申请实施例提供的一种基于自然语言处理的文档相似度识别方法的流程示意图,该方法可以由一个设备(如一个服务器、一台笔记本电脑、一个手机等)或者多个设备(如多个服务器构成的服务器集群)来执行,该方法包括但不限于如下步骤:
步骤S101:设备以字为单位对第一文档进行拆分以获得第一文档包含的多个字。
具体地,以字为单位进行拆分就可以得到多个字,可将每一个字看做一个语言元素,举例来说,假若该第一文档中存在如下一段话“我的爱好是打篮球,每周末都会参加一场公司内部的篮球赛;我工作比较擅长的是网页前端开发”,那么总共可以拆分获得如下语言元素:
“我”、“的”、“爱”、“好”、“是”、“打”、“篮”、“球”、“每”、“周”、“末”、“都”、“会”、“参”、“加”、“一”、“场”、“公”、“司”、“内”、“部”、“赛”、“工”、“作”、“比”、“较”、“擅”、“长”、“前”、“端”、“开”、“发”。
其中,第一文档中不同位置出现的同样的字为一个语言元素。例如,“我”、“的”、“是”都在第一文档中多次出现,但实际上就是一个语言元素。
步骤S102:设备以词为单位对第一文档进行拆分以获得第一文档包含的多个词。
具体地,目前从文档中提取词语的分词提取算法有很多,本申请实施例可以采用现有技术中的分词提取算法来提取第一文档中包含的词语,也可以采用本申请自定义的分词提取算法提取第一文档中包含的词语,例如,本申请提供的分词提取算法提取的词语是指两个或者两个以上的字组成的词语,提取之后就可以得到多个词,其中每个词可以看做是一个语言元素。同样以“我的爱好是打篮球,每周末都会参加一场公司内部的篮球赛;我工作上比较擅长的是网页前端开发”这一段话为例,总共可以拆分获得如下语言元素:
“爱好”、“打篮球”、“周末”、“参加”、“一场”、“公司”、“内部”、“篮球赛”、“工作”、“比较”、“擅长”、“网页”、“前端开发”。
在本申请实施例中,在以词为单位进行划分时已经获得了单个字的语言元素(如“我”),因此在以词语为单位拆分的环节将单个字划分为一个词语就没有实质意义,因此在本申请实施例的分词提取环节可以仅提取两个或者两个以上字数的词语。
通过以上方式获得第一文档的多个字和多个词之后,根据这多个字和多个词来构成第一语言元素库,构成的方式有很多,下面对部分可选方案进行举例说明。
方案一,将以上得到的多个词中的全部词和多个字中的全部字用来构成第一语言元素库,也即是说,该多个词中的每一个词都在该第一语言元素库中,该多个字中每一个字都在第一语言元素库中。以前面步骤举例的类容为例,第一语言元素库中包含的语言元素如下:
“我”、“的”、“爱”、“好”、“是”、“打”、“篮”、“球”、“每”、“周”、“末”、“都”、“会”、“参”、“加”、“一”、“场”、“公”、“司”、“内”、“部”、“赛”、“工”、“作”、“比”、“较”、“擅”、“长”、“前”、“端”、“开”、“发”、“爱好”、“打篮球”、“周末”、“参加”、“一场”、“公司”、“内部”、“篮球赛”、“工作”、“比较”、“擅长”、“网页”、“前端开发”。
方案二,将以上得到的多个词中的部分词和多个字中的部分字用来构成第一语言元素库,具体来说,设备需要对该多个词和多个字进行筛选,筛选掉多个字中的预设字(例如,“的”、“是”等),以及筛选掉多个词中的预设词(例如,“比较”、“内部”),实际应用中,预设词具体包含哪些词,预设字具体包含哪些字都可以预先规定好。筛选之后生成的词和字构成该第一语言元素库,同样以前面步骤举例的类容为例,第一语言元素库中包含的语言元素如下:
“我”、“爱”、“好”、“打”、“篮”、“球”、“每”、“周”、“末”、“都”、“会”、“参”、“加”、“一”、“场”、“公”、“司”、“内”、“部”、“赛”、“工”、“作”、“比”、“较”、“擅”、“长”、“前”、“端”、“开”、“发”、“爱好”、“打篮球”、“周末”、“参加”、“一场”、“公司”、“篮球赛”、“工作”、“擅长”、“网页”、“前端开发”。
之所以要删除预设字、预设词,是因为这些字和词在文档中出现的频率比较高,但是有实质无法体现文档最核心的语义内容,因此将其滤除掉以避免其对文档的干扰。
通过以上方式得到第一语言元素库之后,该第一语言元素库中的每一个词语为一个语言元素,该第一语言元素库中的每一个字也为一个语言元素。
步骤S103:设备通过TF-IDF算法计算第一语言元素库中每一个语言元素的TF-IDF值。
具体地,计算TF-IDF值需要先计算词频(term frequency,TF)和逆文档词频(inverse document frequency,IDF),其中,该第一语言元素库中每一个语言元素的TF计算公式如下:
某个语言元素的词频TF=某个语言元素在第一文档中出现的次数,或者,
某个语言元素的词频TF=某个语言元素在第一文档中出现的次数/第一语言元素库中所有语言元素在第一文档中出现的总次数
该第一语言元素库中每一个语言元素的IDF计算公式如下:
某个语言元素的逆文档词频IDF=log语料库中文档总数/(包含该某个语言元素的文档数+1)
需要说明的是,TF和IDF还可以通过其他方式进行计算,本申请不作具体限定。
计算出TF和IDF之后,根据TF和IDF计算TF-IDF值,例如:TF-IDF=TF*IDF,即TF-IDF值等于DF乘以IDF,当然,这也是一种可选的计算法方式,具体如何根据TF和IDF计算TF-IDF本申请实施例不作限定。
在一种可选的方案中,还可以对第一语言元素库进行更新,例如,对所述第一语言元素库进行同义词替换,并将替换前的语言元素的TF-IDF值赋予替换后的语言元素,其中,同义词替换用于将同样含义的语言元素进行统一描述。可以理解的是,在后续进行向量比对时,同样含义的词语应该是对应同一个向量因子,例如,“精通”和“擅长”这两个同义词就应该对应同一个向量因此,如果让其对应两个不同向量因子,则可能导致语义本来接近,但是通过向量对比得出的结论确实不接近的情况。因此,进行同义词替换能偶提高后续比对的准确性。在这种可选的方案中,在将词语替换之后,还要将原来词语的TF-IDF值赋予替换后的词语。例如,我们将“擅长”替换为“精通”之后,将之前计算出的“擅长”的TF-IDF值0.03赋予“精通”,这样一来,第一语言元素中的“精通”的TF-IDF值就为0.03。需要说明的是,假若对第一语言元素库进行了更新,那么后续再用到第一语言元素库即是指更新后的第一语言元素库。
步骤S104:设备以字为单位对第二文档进行拆分以获得第二文档包含的多个字。
具体地,以字为单位进行拆分就可以得到多个字,可将每一个字看做一个语言元素,举例来说,假若该第二文档中存在如下一段话“他的爱好是打台球,每月末都会参加一场公司内部的台球赛;我工作比较擅长的是网页前端开发”,那么总共可以拆分获得如下语言元素:
“他”、“的”、“爱”、“好”、“是”、“打”、“台”、“球”、“每”、“月”、“末”、“都”、“会”、“参”、“加”、“一”、“场”、“公”、“司”、“内”、“部”、“赛”、“工”、“作”、“比”、“较”、“擅”、“长”、“前”、“端”、“开”、“发”。
其中,第二文档中不同位置出现的同样的字为一个语言元素。例如,“他”、“的”、“是”都在第二文档中多次出现,但实际上就是一个语言元素。
步骤S105:设备以词为单位对第二文档进行拆分以获得第二文档包含的多个词。
具体地,目前从文档中提取词语的分词提取算法有很多,本申请实施例可以采用现有技术中的分词提取算法来提取第二文档中包含的词语,也可以采用本申请自定义的分词提取算法提取第二文档中包含的词语,例如,本申请提供的分词提取算法提取的词语是指两个或者两个以上的字组成的词语,提取之后就可以得到多个词,其中每个词可以看做是一个语言元素。同样以“我的爱好是打篮球,每周末都会参加一场公司内部的篮球赛;我工作上比较擅长的是网页前端开发”这一段话为例,总共可以拆分获得如下语言元素:
“爱好”、“打台球”、“月末”、“参加”、“一场”、“公司”、“内部”、“台球赛”、“工作”、“比较”、“擅长”、“网页”、“前端开发”。
在本申请实施例中,在以词为单位进行划分时已经获得了单个字的语言元素(如“我”),因此在以词语为单位拆分的环节将单个字划分为一个词语就没有实质意义,因此在本申请实施例的分词提取环节可以仅提取两个或者两个以上字数的词语。
通过以上方式获得第二文档的多个字和多个词之后,根据这多个字和多个词来构成第二语言元素库,构成的方式有很多,下面对部分可选方案进行举例说明。
方案一,将以上得到的多个词中的全部词和多个字中的全部字用来构成第二语言元素库,也即是说,该多个词中的每一个词都在该第二语言元素库中,该多个字中每一个字都在第二语言元素库中。以前面步骤举例的类容为例,第二语言元素库中包含的语言元素如下:
“他”、“的”、“爱”、“好”、“是”、“打”、“台”、“球”、“每”、“月”、“末”、“都”、“会”、“参”、“加”、“一”、“场”、“公”、“司”、“内”、“部”、“赛”、“工”、“作”、“比”、“较”、“擅”、“长”、“前”、“端”、“开”、“发”、“爱好”、“打台球”、“月末”、“参加”、“一场”、“公司”、“内部”、“台球赛”、“工作”、“比较”、“擅长”、“网页”、“前端开发”。
方案二,将以上得到的多个词中的部分词和多个字中的部分字用来构成第二语言元素库,具体来说,设备需要对该多个词和多个字进行筛选,筛选掉多个字中的预设字(例如,“的”、“是”等),以及筛选掉多个词中的预设词(例如,“比较”、“内部”),实际应用中,预设词具体包含哪些词,预设字具体包含哪些字都可以预先规定好。筛选之后生成的词和字构成该第二语言元素库,同样以前面步骤举例的类容为例,第二语言元素库中包含的语言元素如下:
“他”、“爱”、“好”、“打”、“台”、“球”、“每”、“月”、“末”、“都”、“会”、“参”、“加”、“一”、“场”、“公”、“司”、“内”、“部”、“赛”、“工”、“作”、“比”、“较”、“擅”、“长”、“前”、“端”、“开”、“发”、“爱好”、“打台球”、“月末”、“参加”、“一场”、“公司”、“台球赛”、“工作”、“擅长”、“网页”、“前端开发”。
之所以要删除预设字、预设词,是因为这些字和词在文档中出现的频率比较高,但是有实质无法体现文档最核心的语义内容,因此将其滤除掉以避免其对文档的干扰。
通过以上方式得到第二语言元素库之后,该第二语言元素库中的每一个词语为一个语言元素,该第二语言元素库中的每一个字也为一个语言元素。
步骤S106:设备通过TF-IDF算法计算第二语言元素库中每一个语言元素的TF-IDF值。
具体地,计算TF-IDF值需要先计算词频(term frequency,TF)和逆文档词频(inverse document frequency,IDF),其中,该第二语言元素库中每一个语言元素的TF计算公式如下:
某个语言元素的词频TF=某个语言元素在第二文档中出现的次数,或者,
某个语言元素的词频TF=某个语言元素在第二文档中出现的次数/第二语言元素库中所有语言元素在第二文档中出现的总次数
该第二语言元素库中每一个语言元素的IDF计算公式如下:
某个语言元素的逆文档词频IDF=log语料库中文档总数/(包含该某个语言元素的文档数+1)
需要说明的是,TF和IDF还可以通过其他方式进行计算,本申请不作具体限定。
计算出TF和IDF之后,根据TF和IDF计算TF-IDF值,例如:TF-IDF=TF*IDF,即TF-IDF值等于DF乘以IDF,当然,这也是一种可选的计算法方式,具体如何根据TF和IDF计算TF-IDF本申请实施例不作限定。
在一种可选的方案中,还可以对第二语言元素库进行更新,例如,对所述第二语言元素库进行同义词替换,并将替换前的语言元素的TF-IDF值赋予替换后的语言元素,其中,同义词替换用于将同样含义的语言元素进行统一描述。可以理解的是,在后续进行向量比对时,同样含义的词语应该是对应同一个向量因子,例如,“精通”和“擅长”这两个同义词就应该对应同一个向量因此,如果让其对应两个不同向量因子,则可能导致语义本来接近,但是通过向量对比得出的结论确实不接近的情况。因此,进行同义词替换能偶提高后续比对的准确性。在这种可选的方案中,在将词语替换之后,还要将原来词语的TF-IDF值赋予替换后的词语。例如,我们将“擅长”替换为“精通”之后,将之前计算出的“擅长”的TF-IDF值0.03赋予“精通”,这样一来,第二语言元素中的“精通”的TF-IDF值就为0.03。需要说明的是,假若对第二语言元素库进行了更新,那么后续再用到第二语言元素库即是指更新后的第二语言元素库。
步骤S107:设备根据第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定第一文档与第二文档的相似度。
具体地,第一语言元素库中的语言元素的TF-IDF值能够体现第一文档的特点,第二语言元素库中的语言元素的TF-IDF值能够体现第二文档的特点,因此将第一语言元素库中的语言元素的TF-IDF值和第二语言元素库中的语言元素的TF-IDF值进行对比即可得到第一文档与第二文档之间的相似度。为了便于理解,下面提供一种可选的比对方式:
根据所述第一语言元素库中每一个语言元素的TF-IDF值确定第一词向量;根据所述第二语言元素库中每一个语言元素的TF-IDF值确定第二词向量;计算所述第一词向量与所述第二词向量的余弦值,其中,所述第一文档与所述第二文档的相似度与所述余弦值的大小呈正相关。
样例1:将第一语言元素库和第二语言元素库取并集,并集中的每一个语言元素对应一个向量因子,例如,如果并集中有9个语言元素,那么最终的第一词向量为一个9维向量,每一维对应并集中一个语言元素在第一文档中的TF-IDF值;同理,最终的第二词向量也为一个9维向量,每一维对应并集中一个语言元素在第二文档中的TF-IDF值。下面进行举例说明,假若第一语言元素库和第二语言元素库包含的语言元素和TF-IDF如表1所示:
表1
那么,从表1中可以看出,并集包括的语言元素包括A、B、C、D、E、F、M、N、R共9个,因此第一词向量和第二词向量均为9维的向量,这9维分别是(A,B,C,D,E,F,M,N,R),因此得到的第一词向量为(0.02,0.03,0.01,0.15,0.12,0.05,0,0,0),得到的第二词向量为(0.19,0.11,0.18,0,0,0,0.01,0.03,0.11)。
可选的,也仅从第一语言元素库中加入部分语言元素到并集中,以及仅从第二语言元素库中加入部分语言元素到并集中,加入的部分语言元素可以是根据TF-IDF大小选择的TF-IDF较大的一些语言元素,例如,按照TF-IDF大小选择前P%的,或者前Q加入到并集中,P、Q可以是根据需要预先设置的参考值。
通过以上方式即可确定出第一文档与第二文档的相似程度,如果第一词向量与第二词向量的余弦值较大,则代表第一文档与第二文档较相似,如果第一词向量与第二词向量的余弦值较小,则代表第一文档与第二文档不相似。假若是应聘或者考试场景,当所述余弦值大于预设阈值时,可以确定存在作弊行为,该预设阈值可以为根据需要预先配置的用于参考对比的值,例如,可设置为0.5-0.8之间的值。
通过执行上述方法,将第一文档和第二文档都进行了字级别的拆分,因此保留了这两个文档最基础的原始信息,能够对冲词级别拆分时出现的误差,例如,对“不需要购买社保”进行拆分时,有些分词算法会拆出“需要”、“购买”、“社保”,而实际上这种拆分结果已经偏离了句子的原意。也即是说,本申请采用字级别拆分和词级别拆分进行组合的方式,让拆分后的词充分表达语义,让拆分后的字对冲语义误差,因此拆分得到的语义元素能够更准确地反映文档的语义,因此在此基础上确定出的第一文档和第二文档的相似度结果更准确。
上述详细阐述了本发明实施例的方法,为了便于更好地实施本发明实施例的上述方案,相应地,下面提供了本发明实施例的装置。
请参见图2,图2是本发明实施例提供的一种设备20的结构示意图,该设备20可以包括第一拆分单元201、第二拆分单元202、第一计算单元203、第三拆分单元204、第四拆分单元205、第二计算单元206,对比单元207,其中,各个单元的详细描述如下。
第一拆分单元201用于以字为单位对第一文档进行拆分以获得所述第一文档包含的多个字;
第二拆分单元202用于以词为单位对所述第一文档进行拆分以获得所述第一文档包含的多个词;
第一计算单元203用于通过词频-逆文档频率TF-IDF算法计算第一语言元素库中每一个语言元素的TF-IDF值,其中,所述第一语言元素库为根据所述第一文档包含的多个字和所述第一文档包含的多个词获得;
第三拆分单元204用于以字为单位对第二文档进行拆分以获得所述第二文档包含的多个字;
第四拆分单元205用于以词为单位对所述第二文档进行拆分以获得所述第二文档包含的多个词;
第二计算单元206用于通过所述TF-IDF算法计算第二语言元素库中每一个语言元素的TF-IDF值,其中,所述第二语言元素库为根据所述第二文档包含的多个字和所述第二文档包含的多个词获得;
对比单元207用于根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度。
通过运行上述单元,将第一文档和第二文档都进行了字级别的拆分,因此保留了这两个文档最基础的原始信息,能够对冲词级别拆分时出现的误差,例如,对“不需要购买社保”进行拆分时,有些分词算法会拆出“需要”、“购买”、“社保”,而实际上这种拆分结果已经偏离了句子的原意。也即是说,本申请采用字级别拆分和词级别拆分进行组合的方式,让拆分后的词充分表达语义,让拆分后的字对冲语义误差,因此拆分得到的语义元素能够更准确地反映文档的语义,因此在此基础上确定出的第一文档和第二文档的相似度结果更准确。
在一种可能的实现方式中,所述对比单元,用于根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度,具体为:
根据所述第一语言元素库中每一个语言元素的TF-IDF值确定第一词向量;
根据所述第二语言元素库中每一个语言元素的TF-IDF值确定第二词向量;
计算所述第一词向量与所述第二词向量的余弦值,其中,所述第一文档与所述第二文档的相似度与所述余弦值的大小呈正相关。
在又一种可能的实现方式中,所述对比单元,还用于在计算所述第一词向量与所述第二词向量的余弦值之后,若所述余弦值大于预设阈值,则确定存在作弊行为。
在又一种可能的实现方式中:所述第一语言元素库不包含所述第一文档的多个字中的预设字,且不包含所述第一文档的多个词中的预设词;所述第二语言元素库不包含所述第二文档的多个字中的预设字,且不包含所述第二文档的多个词中的预设词。
在又一种可能的实现方式中,替换单元,用于在所述对比单元根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度之前,对所述第一语言元素库和所述第二语言元素库进行同义词替换,并将替换前的语言元素的TF-IDF值赋予替换后的语言元素,以实现对所述第一语言元素库和所述第二语言元素库的更新,其中,同义词替换用于将同样含义的语言元素进行统一描述。
需要说明的是,各个单元的具体实现还可以对应参照图1所示的方法实施例的相应描述。
请参见图3,图3是本发明实施例提供的一种设备30,该设备30包括处理器301、存储器302和通信接口303,所述处理器301、存储器302和通信接口303通过总线相互连接。
存储器302包括但不限于是随机存储记忆体(random access memory,RAM)、只读存储器(read-only memory,ROM)、可擦除可编程只读存储器(erasable programmableread only memory,EPROM)、或便携式只读存储器(compact disc read-only memory,CD-ROM),该存储器302用于相关指令及数据。通信接口303用于接收和发送数据。
处理器301可以是一个或多个中央处理器(central processing unit,CPU),在处理器301是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。
处理器301用于读取所述存储器302中存储的程序代码,执行以下操作:
以字为单位对第一文档进行拆分以获得所述第一文档包含的多个字;
以词为单位对所述第一文档进行拆分以获得所述第一文档包含的多个词;
通过词频-逆文档频率TF-IDF算法计算第一语言元素库中每一个语言元素的TF-IDF值,其中,所述第一语言元素库为根据所述第一文档包含的多个字和所述第一文档包含的多个词获得;
以字为单位对第二文档进行拆分以获得所述第二文档包含的多个字;
以词为单位对所述第二文档进行拆分以获得所述第二文档包含的多个词;
通过所述TF-IDF算法计算第二语言元素库中每一个语言元素的TF-IDF值,其中,所述第二语言元素库为根据所述第二文档包含的多个字和所述第二文档包含的多个词获得;
根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度。
通过执行上述操作,将第一文档和第二文档都进行了字级别的拆分,因此保留了这两个文档最基础的原始信息,能够对冲词级别拆分时出现的误差,例如,对“不需要购买社保”进行拆分时,有些分词算法会拆出“需要”、“购买”、“社保”,而实际上这种拆分结果已经偏离了句子的原意。也即是说,本申请采用字级别拆分和词级别拆分进行组合的方式,让拆分后的词充分表达语义,让拆分后的字对冲语义误差,因此拆分得到的语义元素能够更准确地反映文档的语义,因此在此基础上确定出的第一文档和第二文档的相似度结果更准确。
在一种可能的实现方式中,所述处理器根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度,具体为:
根据所述第一语言元素库中每一个语言元素的TF-IDF值确定第一词向量;
根据所述第二语言元素库中每一个语言元素的TF-IDF值确定第二词向量;
计算所述第一词向量与所述第二词向量的余弦值,其中,所述第一文档与所述第二文档的相似度与所述余弦值的大小呈正相关。
在又一种可能的实现方式中,所述处理器计算所述第一词向量与所述第二词向量的余弦值之后,还用于:在所述余弦值大于预设阈值的情况下,确定存在作弊行为。
在又一种可能的实现方式中:所述第一语言元素库不包含所述第一文档的多个字中的预设字,且不包含所述第一文档的多个词中的预设词;所述第二语言元素库不包含所述第二文档的多个字中的预设字,且不包含所述第二文档的多个词中的预设词。
在又一种可能的实现方式中,所述处理器根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度之前,还用于:
对所述第一语言元素库和所述第二语言元素库进行同义词替换,并将替换前的语言元素的TF-IDF值赋予替换后的语言元素,以实现对所述第一语言元素库和所述第二语言元素库的更新,其中,同义词替换用于将同样含义的语言元素进行统一描述。
需要说明的是,各个操作的实现还可以对应参照图1所示的方法实施例的相应描述
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在处理器上运行时,图1所示的方法流程得以实现。
本发明实施例还提供一种计算机程序产品,当所述计算机程序产品在处理器上运行时,图1所示的方法流程得以实现。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,该的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可存储程序代码的介质。

Claims (10)

1.一种基于自然语言处理技术的文档相似度识别方法,其特征在于,包括:
以字为单位对第一文档进行拆分以获得所述第一文档包含的多个字;
以词为单位对所述第一文档进行拆分以获得所述第一文档包含的多个词;
通过TF-IDF算法计算第一语言元素库中每一个语言元素的TF-IDF值,其中,所述第一语言元素库为根据所述第一文档包含的多个字和所述第一文档包含的多个词获得;
以字为单位对第二文档进行拆分以获得所述第二文档包含的多个字;
以词为单位对所述第二文档进行拆分以获得所述第二文档包含的多个词;
通过所述TF-IDF算法计算第二语言元素库中每一个语言元素的TF-IDF值,其中,所述第二语言元素库为根据所述第二文档包含的多个字和所述第二文档包含的多个词获得;
根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度,包括:
根据所述第一语言元素库中每一个语言元素的TF-IDF值确定第一词向量;
根据所述第二语言元素库中每一个语言元素的TF-IDF值确定第二词向量;
计算所述第一词向量与所述第二词向量的余弦值,其中,所述第一文档与所述第二文档的相似度与所述余弦值的大小呈正相关。
3.根据权利要求2所述的方法,其特征在于,所述计算所述第一词向量与所述第二词向量的余弦值之后,还包括:
若所述余弦值大于预设阈值,则确定存在作弊行为。
4.根据权利要求1-3任一项所述的方法,其特征在于:
所述第一语言元素库不包含所述第一文档的多个字中的预设字,且不包含所述第一文档的多个词中的预设词;
所述第二语言元素库不包含所述第二文档的多个字中的预设字,且不包含所述第二文档的多个词中的预设词。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度之前,还包括:
对所述第一语言元素库和所述第二语言元素库进行同义词替换,并将替换前的语言元素的TF-IDF值赋予替换后的语言元素,以实现对所述第一语言元素库和所述第二语言元素库的更新,其中,同义词替换用于将同样含义的语言元素进行统一描述。
6.一种基于自然语言处理技术的文档相似度识别设备,其特征在于,包括:
第一拆分单元,用于以字为单位对第一文档进行拆分以获得所述第一文档包含的多个字;
第二拆分单元,用于以词为单位对所述第一文档进行拆分以获得所述第一文档包含的多个词;
第一计算单元,用于通过TF-IDF算法计算第一语言元素库中每一个语言元素的TF-IDF值,其中,所述第一语言元素库为根据所述第一文档包含的多个字和所述第一文档包含的多个词获得;
第三拆分单元,用于以字为单位对第二文档进行拆分以获得所述第二文档包含的多个字;
第四拆分单元,用于以词为单位对所述第二文档进行拆分以获得所述第二文档包含的多个词;
第二计算单元,用于通过所述TF-IDF算法计算第二语言元素库中每一个语言元素的TF-IDF值,其中,所述第二语言元素库为根据所述第二文档包含的多个字和所述第二文档包含的多个词获得;
对比单元,用于根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度。
7.根据权利要求6所述的设备,其特征在于,所述对比单元,用于根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度,具体为:
根据所述第一语言元素库中每一个语言元素的TF-IDF值确定第一词向量;
根据所述第二语言元素库中每一个语言元素的TF-IDF值确定第二词向量;
计算所述第一词向量与所述第二词向量的余弦值,其中,所述第一文档与所述第二文档的相似度与所述余弦值的大小呈正相关。
8.根据权利要求7所述的设备,其特征在于,所述对比单元,还用于在计算所述第一词向量与所述第二词向量的余弦值之后,若所述余弦值大于预设阈值,则确定存在作弊行为。
9.根据权利要求6-8任一项所述的设备,其特征在于:
所述第一语言元素库不包含所述第一文档的多个字中的预设字,且不包含所述第一文档的多个词中的预设词;
所述第二语言元素库不包含所述第二文档的多个字中的预设字,且不包含所述第二文档的多个词中的预设词。
10.根据权利要求6-8任一项所述的设备,其特征在于,替换单元,用于在所述对比单元根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度之前,对所述第一语言元素库和所述第二语言元素库进行同义词替换,并将替换前的语言元素的TF-IDF值赋予替换后的语言元素,以实现对所述第一语言元素库和所述第二语言元素库的更新,其中,同义词替换用于将同样含义的语言元素进行统一描述。
CN201910529190.9A 2019-06-18 2019-06-18 一种基于自然语言处理的文档相似度识别方法及相关设备 Pending CN110334324A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910529190.9A CN110334324A (zh) 2019-06-18 2019-06-18 一种基于自然语言处理的文档相似度识别方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910529190.9A CN110334324A (zh) 2019-06-18 2019-06-18 一种基于自然语言处理的文档相似度识别方法及相关设备

Publications (1)

Publication Number Publication Date
CN110334324A true CN110334324A (zh) 2019-10-15

Family

ID=68142592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910529190.9A Pending CN110334324A (zh) 2019-06-18 2019-06-18 一种基于自然语言处理的文档相似度识别方法及相关设备

Country Status (1)

Country Link
CN (1) CN110334324A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310478A (zh) * 2020-03-18 2020-06-19 电子科技大学 一种基于tf-idf和词向量的相似句子检测方法
CN112988989A (zh) * 2019-12-18 2021-06-18 中国移动通信集团四川有限公司 一种地名地址匹配方法及服务器

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003263443A (ja) * 2002-03-07 2003-09-19 Fujitsu Ltd 文書類似度算出装置、クラスタリング装置および文書抽出装置
US20080082531A1 (en) * 2006-09-28 2008-04-03 Veritas Operating Corporation Clustering system and method
CN102411564A (zh) * 2011-08-17 2012-04-11 北方工业大学 一种电子作业抄袭检测方法
CN103838789A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种文本相似度计算方法
CN106528507A (zh) * 2016-10-25 2017-03-22 中南林业科技大学 一种中文文本相似度的检测方法及检测装置
CN107562824A (zh) * 2017-08-21 2018-01-09 昆明理工大学 一种文本相似度检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003263443A (ja) * 2002-03-07 2003-09-19 Fujitsu Ltd 文書類似度算出装置、クラスタリング装置および文書抽出装置
US20080082531A1 (en) * 2006-09-28 2008-04-03 Veritas Operating Corporation Clustering system and method
CN102411564A (zh) * 2011-08-17 2012-04-11 北方工业大学 一种电子作业抄袭检测方法
CN103838789A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种文本相似度计算方法
CN106528507A (zh) * 2016-10-25 2017-03-22 中南林业科技大学 一种中文文本相似度的检测方法及检测装置
CN107562824A (zh) * 2017-08-21 2018-01-09 昆明理工大学 一种文本相似度检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周小平 等: "基于VSM的电子作业反抄袭系统的设计与实现", 《实验技术与管理》, vol. 30, no. 3, 20 March 2013 (2013-03-20), pages 117 - 119 *
董卫博: "中文文档复制检测系统的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 September 2014 (2014-09-15), pages 138 - 1353 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112988989A (zh) * 2019-12-18 2021-06-18 中国移动通信集团四川有限公司 一种地名地址匹配方法及服务器
CN111310478A (zh) * 2020-03-18 2020-06-19 电子科技大学 一种基于tf-idf和词向量的相似句子检测方法
CN111310478B (zh) * 2020-03-18 2023-09-19 电子科技大学 一种基于tf-idf和词向量的相似句子检测方法

Similar Documents

Publication Publication Date Title
Pradha et al. Effective text data preprocessing technique for sentiment analysis in social media data
Potts et al. DynaSent: A dynamic benchmark for sentiment analysis
CN108536852B (zh) 问答交互方法和装置、计算机设备及计算机可读存储介质
Laban et al. The summary loop: Learning to write abstractive summaries without examples
CN110196972B (zh) 文案生成方法、装置及计算机可读存储介质
JP2015201185A (ja) 講義ビデオのトピックスを特定する方法及び非一時的なコンピュータ可読媒体
Laugier et al. Civil rephrases of toxic texts with self-supervised transformers
Melegati et al. Requirements engineering in software startups: A grounded theory approach
Vakulenko et al. Enriching iTunes App Store Categories via Topic Modeling.
CN111078893A (zh) 一种大规模高效获取识别对话意图用语料的方法
Orbach et al. Out of the echo chamber: Detecting countering debate speeches
CN110334324A (zh) 一种基于自然语言处理的文档相似度识别方法及相关设备
Zhu et al. Automated essay scoring system using multi-model machine learning
CN109284389A (zh) 一种文本数据的信息处理方法、装置
US20180047095A1 (en) Automated product personalization based on multiple sources of product information
CN114036282A (zh) 用于端到端任务型对话的语言模型预训练方法及系统
JP6942759B2 (ja) 情報処理装置、プログラム及び情報処理方法
CN109241993B (zh) 融合用户和整体评价信息的评价对象情感分类方法及装置
Peshterliev et al. Conversational answer generation and factuality for reading comprehension question-answering
Dzendzik et al. Is it dish washer safe? automatically answering “yes/no” questions using customer reviews
CN110019702B (zh) 数据挖掘方法、装置和设备
Qarqaz et al. R00 at NLP4IF-2021 fighting COVID-19 infodemic with transformers and more transformers
US20220277149A1 (en) Statistical language models for simulating communication sessions
Kumaresh et al. analysis of opinionated texts on IPL 2020 matches using social media data
KR101697992B1 (ko) 다중 개발자 네트워크 기반의 버그 정정 개발자 추천 시스템 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191015

WD01 Invention patent application deemed withdrawn after publication